
- 敏捷数据科学教程
- 敏捷数据科学 - 主页
- 敏捷数据科学 - 简介
- 方法论概念
- 敏捷数据科学 - 流程
- 敏捷工具和安装
- 敏捷中的数据处理
- SQL 与 NoSQL
- NoSQL 和数据流编程
- 收集和显示记录
- 数据可视化
- 数据丰富
- 处理报告
- 预测的作用
- 使用 PySpark 提取特征
- 构建回归模型
- 部署预测系统
- 敏捷数据科学 - SparkML
- 修复预测问题
- 提高预测性能
- 通过敏捷和数据科学创建更好的情境
- 敏捷实施
- 敏捷数据科学实用资源
- 敏捷数据科学 - 快速指南
- 敏捷数据科学 - 资源
- 敏捷数据科学 - 讨论
使用 PySpark 提取特征
在本章中,我们将了解敏捷数据科学中使用 PySpark 提取特征的应用。
Spark 概述
Apache Spark 可以定义为一个快速实时处理框架。它进行计算以实时分析数据。Apache Spark 被引入为实时流处理系统,还能够处理批处理。Apache Spark 支持交互式查询和迭代算法。
Spark 使用“Scala 编程语言”编写。
PySpark 可以被视为 Python 与 Spark 的组合。PySpark 提供了 PySpark shell,它将 Python API 连接到 Spark 核心并初始化 Spark 上下文。大多数数据科学家都使用 PySpark 来跟踪特征,如上一章所述。
在此示例中,我们将重点介绍基于转换来构建名为“counts”的数据集并将其保存到特定文件中的过程。
text_file = sc.textFile("hdfs://...") counts = text_file.flatMap(lambda line: line.split(" ")) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) counts.saveAsTextFile("hdfs://...")
使用 PySpark,用户可以使用 python 编程语言处理 RDD。这方面的工作得到了内置库的帮助,该库涵盖了数据驱动型文档和组件的基础知识。
广告