PySpark - 简介



在本章中,我们将了解什么是 Apache Spark,以及 PySpark 的开发过程。

Spark - 概述

Apache Spark 是一个极速的实时处理框架。它进行内存中计算来实时分析数据。它的出现是因为 Apache Hadoop MapReduce 仅执行批处理,并且缺少实时处理功能。因此,引入了 Apache Spark,因为它可以在实时执行流处理,还可以执行批处理。

除了实时和批处理外,Apache Spark 还支持交互式查询和迭代算法。Apache Spark 有自己的集群管理器,可以在其中托管其应用程序。它利用 Apache Hadoop 进行存储和处理。它将 HDFS(Hadoop 分布式文件系统)用于存储,并且它还可以在 YARN 上运行 Spark 应用程序。

PySpark - 概述

Apache Spark 用 Scala 编程语言编写。为了用 Python 支持 Spark,Apache Spark 社区发布了一个工具 PySpark。使用 PySpark,您还可以在 Python 编程语言中使用 RDD。这是由于一个名为 Py4j 的库,他们能够实现此功能。

PySpark 提供了 PySpark Shell,它将 Python API 链接到 Spark 核心并初始化 Spark 上下文。今天,大多数数据科学家和分析专家使用 Python,因为其丰富的库集。将 Python 与 Spark 集成对他们来说是一大福音。

广告