- PySpark 教程
- PySpark - 主页
- PySpark - 简介
- PySpark - 环境设置
- PySpark - SparkContext
- PySpark - RDD
- PySpark - Broadcast 和 Accumulator
- PySpark - SparkConf
- PySpark - SparkFiles
- PySpark - StorageLevel
- PySpark - MLlib
- PySpark - Serializers
- PySpark 实用资源
- PySpark - 速查指南
- PySpark - 实用资源
- PySpark - 讨论
PySpark - 环境设置
在本章中,我们将了解 PySpark 的环境设置。
注意 - 这考虑到了您在计算机中安装了 Java 和 Scala。
让我们按照以下步骤下载并设置 PySpark。
步骤 1 - 访问正式的 Apache Spark 下载 页面并下载其中可用的最新版 Apache Spark。在本教程中,我们使用的是 spark-2.1.0-bin-hadoop2.7。
步骤 2 - 现在,抽取下载的 Spark tar 文件。默认情况下,它将下载到“下载”目录中。
# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz
它将创建一个目录 spark-2.1.0-bin-hadoop2.7。启动 PySpark 之前,您需要设置以下环境来设置 Spark 路径和 Py4j 路径。
export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7 export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH export PATH = $SPARK_HOME/python:$PATH
或者,要在全局设置以上环境,请将它们放入 .bashrc 文件中。然后运行以下命令以使环境起作用。
# source .bashrc
现在,我们已经设置了所有环境,让我们转到 Spark 目录,并通过运行以下命令调用 PySpark 外壳 -
# ./bin/pyspark
这将会启动您的 PySpark 外壳。
Python 2.7.12 (default, Nov 19 2016, 06:48:10) [GCC 5.4.0 20160609] on linux2 Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.1.0 /_/ Using Python version 2.7.12 (default, Nov 19 2016 06:48:10) SparkSession available as 'spark'. <<<
广告