使用 PySpark 提取特征



在本章中,我们将了解敏捷数据科学中使用 PySpark 提取特征的应用。

Spark 概述

Apache Spark 可以定义为一个快速实时处理框架。它进行计算以实时分析数据。Apache Spark 被引入为实时流处理系统,还能够处理批处理。Apache Spark 支持交互式查询和迭代算法。

Spark 使用“Scala 编程语言”编写。

PySpark 可以被视为 Python 与 Spark 的组合。PySpark 提供了 PySpark shell,它将 Python API 连接到 Spark 核心并初始化 Spark 上下文。大多数数据科学家都使用 PySpark 来跟踪特征,如上一章所述。

在此示例中,我们将重点介绍基于转换来构建名为“counts”的数据集并将其保存到特定文件中的过程。

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

使用 PySpark,用户可以使用 python 编程语言处理 RDD。这方面的工作得到了内置库的帮助,该库涵盖了数据驱动型文档和组件的基础知识。

广告