使用 PySpark 提取特征

在本章中，我们将了解敏捷数据科学中使用 PySpark 提取特征的应用。

Spark 概述

Apache Spark 可以定义为一个快速实时处理框架。它进行计算以实时分析数据。Apache Spark 被引入为实时流处理系统，还能够处理批处理。Apache Spark 支持交互式查询和迭代算法。

Spark 使用“Scala 编程语言”编写。

PySpark 可以被视为 Python 与 Spark 的组合。PySpark 提供了 PySpark shell，它将 Python API 连接到 Spark 核心并初始化 Spark 上下文。大多数数据科学家都使用 PySpark 来跟踪特征，如上一章所述。

在此示例中，我们将重点介绍基于转换来构建名为“counts”的数据集并将其保存到特定文件中的过程。

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

使用 PySpark，用户可以使用 python 编程语言处理 RDD。这方面的工作得到了内置库的帮助，该库涵盖了数据驱动型文档和组件的基础知识。

打印页面

上一个

下一个