Python 数据科学 - 环境搭建



为了成功创建和运行本教程中的示例代码,我们需要设置一个环境,该环境将包含通用 Python 以及数据科学所需的特有包。我们将首先了解如何安装通用 Python,它可以是 Python 2 或 Python 3。但本教程将优先使用 Python 2,主要是因为其成熟度和更广泛的外部包支持。

获取 Python

最新的源代码、二进制文件、文档、新闻等都可以在 Python 官方网站上找到 https://www.pythonlang.cn/

您可以从 https://www.pythonlang.cn/doc/ 下载 Python 文档。文档提供 HTML、PDF 和 PostScript 格式。

安装 Python

Python 发行版适用于各种平台。您只需要下载适用于您平台的二进制代码并安装 Python。

如果您的平台没有提供二进制代码,则需要 C 编译器手动编译源代码。编译源代码在您所需的安装功能选择方面提供了更大的灵活性。

以下是各种平台上安装 Python 的快速概述:

Unix 和 Linux 安装

以下是您在 Unix/Linux 机器上安装 Python 的简单步骤。

  • 打开 Web 浏览器并访问 https://www.pythonlang.cn/downloads/

  • 点击链接下载适用于 Unix/Linux 的压缩源代码。

  • 下载并解压文件。

  • 如果您想自定义一些选项,请编辑Modules/Setup 文件。

  • 运行 ./configure 脚本

  • make

  • make install

这会将 Python 安装到标准位置/usr/local/bin,并将库安装到/usr/local/lib/pythonXX,其中 XX 是 Python 的版本。

Windows 安装

以下是您在 Windows 机器上安装 Python 的步骤。

  • 打开 Web 浏览器并访问 https://www.pythonlang.cn/downloads/

  • 点击链接获取 Windows 安装程序python-XYZ.msi 文件,其中 XYZ 是您需要安装的版本。

  • 要使用此安装程序python-XYZ.msi,Windows 系统必须支持 Microsoft Installer 2.0。将安装程序文件保存到您的本地计算机,然后运行它以了解您的计算机是否支持 MSI。

  • 运行下载的文件。这将启动 Python 安装向导,使用起来非常简单。只需接受默认设置,等待安装完成即可。

Macintosh 安装

最近的 Mac 都预装了 Python,但版本可能已经过时几年。请参阅 https://www.pythonlang.cn/download/mac/,了解有关获取最新版本以及支持在 Mac 上进行开发的其他工具的说明。对于 Mac OS X 10.3(2003 年发布)之前的旧版 Mac OS,可以使用 MacPython。

Jack Jansen 维护着它,您可以在他的网站上完整访问所有文档:http://www.cwi.nl/~jack/macpython.html。您可以在其中找到 Mac OS 安装的完整安装细节。

设置 PATH

程序和其他可执行文件可能位于许多目录中,因此操作系统提供了一个搜索路径,其中列出了操作系统搜索可执行文件的目录。

路径存储在环境变量中,环境变量是操作系统维护的命名字符串。此变量包含可供命令 shell 和其他程序使用的信息。

路径变量在 Unix 中名为 PATH,在 Windows 中名为 Path(Unix 区分大小写;Windows 不区分大小写)。

在 Mac OS 中,安装程序处理路径细节。要从任何特定目录调用 Python 解释器,您必须将 Python 目录添加到您的路径中。

在 Unix/Linux 上设置路径

要在 Unix 中为特定会话将 Python 目录添加到路径中,请执行以下操作:

  • 在 csh shell 中 - 输入 setenv PATH "$PATH:/usr/local/bin/python" 并按 Enter 键。

  • 在 bash shell(Linux)中 - 输入 export ATH="$PATH:/usr/local/bin/python" 并按 Enter 键。

  • 在 sh 或 ksh shell 中 - 输入 PATH="$PATH:/usr/local/bin/python" 并按 Enter 键。

  • 注意 - /usr/local/bin/python 是 Python 目录的路径

在 Windows 上设置路径

要在 Windows 中为特定会话将 Python 目录添加到路径中,请执行以下操作:

在命令提示符下 - 输入 path %path%;C:\Python 并按 Enter 键。

注意 - C:\Python 是 Python 目录的路径

Python 环境变量

以下是一些 Python 可以识别的重要环境变量:

序号 变量和描述
1

PYTHONPATH

它与 PATH 的作用类似。此变量告诉 Python 解释器在哪里查找导入到程序中的模块文件。它应包含 Python 源库目录和包含 Python 源代码的目录。PYTHONPATH 有时由 Python 安装程序预设。

2

PYTHONSTARTUP

它包含一个初始化文件的路径,该文件包含 Python 源代码。每次启动解释器时都会执行它。在 Unix 中它名为 .pythonrc.py,其中包含加载实用程序或修改 PYTHONPATH 的命令。

3

PYTHONCASEOK

它用于 Windows,指示 Python 在 import 语句中查找第一个不区分大小写的匹配项。将此变量设置为任何值以激活它。

4

PYTHONHOME

它是一个备用模块搜索路径。它通常嵌入在 PYTHONSTARTUP 或 PYTHONPATH 目录中,以便轻松切换模块库。

运行 Python

有三种不同的方法可以启动 Python:

交互式解释器

您可以从 Unix、DOS 或任何其他提供命令行解释器或 shell 窗口的系统启动 Python。

在命令行中输入python

立即在交互式解释器中开始编码。

$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS

以下是所有可用命令行选项的列表:

序号 选项和描述
1

-d

提供调试输出。

2

-O

生成优化的字节码(生成 .pyo 文件)。

3

-S

在启动时不要运行 import site 以查找 Python 路径。

4

-v

详细输出(import 语句的详细跟踪)。

5

-X

禁用基于类的内置异常(仅使用字符串);从版本 1.6 开始已过时。

6

-c cmd

运行作为 cmd 字符串发送的 Python 脚本

7

file

从给定文件运行 Python 脚本

从命令行运行脚本

可以通过在应用程序上调用解释器来在命令行执行 Python 脚本,如下所示:

$python script.py # Unix/Linux

or

python% script.py # Unix/Linux

or 

C: >python script.py # Windows/DOS

注意 - 确保文件权限模式允许执行。

集成开发环境

如果您在系统上安装了支持 Python 的图形用户界面 (GUI) 应用程序,则也可以从 GUI 环境运行 Python。

  • Unix - IDLE 是第一个用于 Python 的 Unix IDE。

  • Windows - PythonWin 是第一个用于 Python 的 Windows 界面,它是一个带 GUI 的 IDE。

  • Macintosh - Macintosh 版的 Python 以及 IDLE IDE 可从主网站下载,可下载为 MacBinary 或 BinHex'd 文件。

安装 SciPy 包

启用所需包的最佳方法是使用特定于您的操作系统的可安装二进制包。这些二进制文件包含完整的 SciPy 堆栈(包括 NumPy、SciPy、matplotlib、IPython、SymPy 和 nose 包以及核心 Python)。

Windows

Anaconda(来自 www.continuum.io)是用于 SciPy 堆栈的免费 Python 发行版。它也适用于 Linux 和 Mac。

Canopy(www.enthought.com/products/canopy/)提供免费和商业发行版,其中包含适用于 Windows、Linux 和 Mac 的完整 SciPy 堆栈。

Python (x,y):它是一个免费的 Python 发行版,带有 SciPy 堆栈和适用于 Windows 操作系统的 Spyder IDE。(可从 www.python-xy.github.io/ 下载)

Linux

各个 Linux 发行版的包管理器用于安装 SciPy 堆栈中的一个或多个包。

对于 Ubuntu

sudo apt-get install python-numpy 
python-scipy python-matplotlibipythonipythonnotebook python-pandas 
python-sympy python-nose

对于 Fedora

sudo yum install numpyscipy python-matplotlibipython 
python-pandas sympy python-nose atlas-devel

从源代码构建

必须安装核心 Python(2.6.x、2.7.x 和 3.2.x 及更高版本),并且必须启用 distutils 和 zlib 模块。

必须可以使用 GNU gcc(4.2 及更高版本)C 编译器。

要安装 NumPy,请运行以下命令。

Python setup.py install

让我们测试 NumPy 模块是否已正确安装,尝试从 Python 提示符导入它。

如果未安装,将显示以下错误消息。

Traceback (most recent call last): 
   File "<pyshell#0>", line 1, in <module> 
      import numpy 
ImportError: No module named 'numpy'

类似地,我们可以检查后面章节中显示的所有必需的数据科学包的安装情况。

广告