PySpark - 简介

在本章中，我们将了解什么是 Apache Spark，以及 PySpark 的开发过程。

Spark - 概述

Apache Spark 是一个极速的实时处理框架。它进行内存中计算来实时分析数据。它的出现是因为 Apache Hadoop MapReduce 仅执行批处理，并且缺少实时处理功能。因此，引入了 Apache Spark，因为它可以在实时执行流处理，还可以执行批处理。

除了实时和批处理外，Apache Spark 还支持交互式查询和迭代算法。Apache Spark 有自己的集群管理器，可以在其中托管其应用程序。它利用 Apache Hadoop 进行存储和处理。它将 HDFS（Hadoop 分布式文件系统）用于存储，并且它还可以在 YARN 上运行 Spark 应用程序。

PySpark - 概述

Apache Spark 用 Scala 编程语言编写。为了用 Python 支持 Spark，Apache Spark 社区发布了一个工具 PySpark。使用 PySpark，您还可以在 Python 编程语言中使用 RDD。这是由于一个名为 Py4j 的库，他们能够实现此功能。

PySpark 提供了 PySpark Shell，它将 Python API 链接到 Spark 核心并初始化 Spark 上下文。今天，大多数数据科学家和分析专家使用 Python，因为其丰富的库集。将 Python 与 Spark 集成对他们来说是一大福音。

打印页面