PySpark - 环境设置

在本章中，我们将了解 PySpark 的环境设置。

注意 - 这考虑到了您在计算机中安装了 Java 和 Scala。

让我们按照以下步骤下载并设置 PySpark。

步骤 1 - 访问正式的 Apache Spark 下载页面并下载其中可用的最新版 Apache Spark。在本教程中，我们使用的是 spark-2.1.0-bin-hadoop2.7。

步骤 2 - 现在，抽取下载的 Spark tar 文件。默认情况下，它将下载到“下载”目录中。

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

它将创建一个目录 spark-2.1.0-bin-hadoop2.7。启动 PySpark 之前，您需要设置以下环境来设置 Spark 路径和 Py4j 路径。

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

或者，要在全局设置以上环境，请将它们放入 .bashrc 文件中。然后运行以下命令以使环境起作用。

# source .bashrc

现在，我们已经设置了所有环境，让我们转到 Spark 目录，并通过运行以下命令调用 PySpark 外壳 -

# ./bin/pyspark

这将会启动您的 PySpark 外壳。

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<

打印页面