- Python - 文本处理
- Python - 文本处理简介
- Python - 文本处理环境
- Python - 字符串不变性
- Python - 对行排序
- Python - 段落重新格式化
- Python - 统计段落中的标记
- Python - 二进制ASCII转换
- Python - 字符串作为文件
- Python - 反向文件读取
- Python - 过滤重复单词
- Python - 从文本中提取电子邮件
- Python - 从文本中提取URL
- Python - 美观打印
- Python - 文本处理状态机
- Python - 首字母大写和翻译
- Python - 分词
- Python - 删除停用词
- Python - 同义词和反义词
- Python - 文本翻译
- Python - 替换单词
- Python - 拼写检查
- Python - WordNet接口
- Python - 语料库访问
- Python - 词性标注
- Python - 组块和组块间隙
- Python - 组块分类
- Python - 文本分类
- Python - 二元语法
- Python - 处理PDF
- Python - 处理Word文档
- Python - 读取RSS Feed
- Python - 情感分析
- Python - 搜索和匹配
- Python - 文本处理
- Python - 文本换行
- Python - 频率分布
- Python - 文本摘要
- Python - 词干提取算法
- Python - 受约束搜索
Python - 文本处理环境
为了成功创建和运行本教程中的示例代码,我们需要设置一个环境,该环境将包含通用Python以及数据科学所需的特殊软件包。我们将首先了解如何安装通用Python,它可以是Python 2或Python 3。但是,在本教程中,我们更偏向于使用Python 2,主要是因为其成熟度和更广泛的外部软件包支持。
获取Python
最新的源代码、二进制文件、文档、新闻等都可以在Python的官方网站上找到 https://www.pythonlang.cn/
您可以从 https://www.pythonlang.cn/doc/ 下载Python文档。该文档提供HTML、PDF和PostScript格式。
安装Python
Python发行版适用于各种平台。您只需下载适用于您平台的二进制代码并安装Python即可。
如果您的平台没有提供二进制代码,则需要一个C编译器来手动编译源代码。编译源代码在您所需的安装功能选择方面提供了更大的灵活性。
以下是关于在各种平台上安装Python的快速概述:
Unix和Linux安装
以下是关于在Unix/Linux机器上安装Python的简单步骤。
打开Web浏览器并访问 https://www.pythonlang.cn/downloads/。
点击链接下载适用于Unix/Linux的压缩源代码。
下载并解压缩文件。
如果您想自定义某些选项,请编辑Modules/Setup文件。
运行./configure脚本
make
make install
这会将Python安装到标准位置/usr/local/bin,并将它的库安装到/usr/local/lib/pythonXX,其中XX是Python的版本。
Windows安装
以下是关于在Windows机器上安装Python的步骤。
打开Web浏览器并访问 https://www.pythonlang.cn/downloads/。
点击链接下载Windows安装程序python-XYZ.msi文件,其中XYZ是您需要安装的版本。
要使用此安装程序python-XYZ.msi,Windows系统必须支持Microsoft Installer 2.0。将安装程序文件保存到您的本地计算机,然后运行它以查看您的计算机是否支持MSI。
运行下载的文件。这将打开Python安装向导,非常易于使用。只需接受默认设置,等待安装完成,即可。
Macintosh安装
最近的Mac都预装了Python,但它可能已经过时了几年。请查看 https://www.pythonlang.cn/download/mac/,了解如何获取最新版本以及支持在Mac上进行开发的其他工具的说明。对于Mac OS X 10.3(2003年发布)之前的旧版Mac OS,可以使用MacPython。
Jack Jansen维护着它,您可以在他的网站上完全访问所有文档:http://www.cwi.nl/~jack/macpython.html。您可以在其中找到Mac OS安装的完整安装细节。
设置PATH
程序和其他可执行文件可能位于许多目录中,因此操作系统提供了一个搜索路径,该路径列出了操作系统搜索可执行文件的目录。
路径存储在环境变量中,环境变量是操作系统维护的命名字符串。此变量包含命令外壳和其他程序可用的信息。
路径变量在Unix中命名为PATH,在Windows中命名为Path(Unix区分大小写;Windows不区分大小写)。
在Mac OS中,安装程序处理路径细节。要从任何特定目录调用Python解释器,必须将Python目录添加到您的路径中。
在Unix/Linux上设置路径
要在Unix中为特定会话将Python目录添加到路径中,请执行以下操作:
在csh shell中 - 输入 setenv PATH "$PATH:/usr/local/bin/python" 并按Enter键。
在bash shell(Linux)中 - 输入 export ATH="$PATH:/usr/local/bin/python" 并按Enter键。
在sh或ksh shell中 - 输入 PATH="$PATH:/usr/local/bin/python" 并按Enter键。
注意 - /usr/local/bin/python是Python目录的路径
在Windows上设置路径
要在Windows中为特定会话将Python目录添加到路径中,请执行以下操作:
在命令提示符下 - 输入 path %path%;C:\Python 并按Enter键。
注意 - C:\Python是Python目录的路径
Python环境变量
以下是一些Python可以识别的重要环境变量:
序号 | 变量和描述 |
---|---|
1 | PYTHONPATH 它具有与PATH类似的作用。此变量告诉Python解释器在哪里查找导入到程序中的模块文件。它应包含Python源库目录和包含Python源代码的目录。PYTHONPATH有时由Python安装程序预设。 |
2 | PYTHONSTARTUP 它包含一个初始化文件的路径,该文件包含Python源代码。每次启动解释器时都会执行它。它在Unix中命名为.pythonrc.py,并且包含加载实用程序或修改PYTHONPATH的命令。 |
3 | PYTHONCASEOK 它在Windows中用于指示Python在import语句中查找第一个不区分大小写的匹配项。将此变量设置为任何值以激活它。 |
4 | PYTHONHOME 它是一个备用的模块搜索路径。它通常嵌入在PYTHONSTARTUP或PYTHONPATH目录中,以方便切换模块库。 |
运行Python
有三种不同的方法可以启动Python:
交互式解释器
您可以从Unix、DOS或任何其他提供命令行解释器或shell窗口的系统启动Python。
在命令行中输入python。
在交互式解释器中立即开始编码。
$python # Unix/Linux or python% # Unix/Linux or C:> python # Windows/DOS
以下是所有可用命令行选项的列表:
序号 | 选项和描述 |
---|---|
1 | -d 它提供调试输出。 |
2 | -O 它生成优化的字节码(生成.pyo文件)。 |
3 | -S 在启动时不要运行import site来查找Python路径。 |
4 | -v 详细输出(导入语句的详细跟踪)。 |
5 | -X 禁用基于类的内置异常(只使用字符串);从版本1.6开始已过时。 |
6 | -c cmd 运行作为cmd字符串发送的Python脚本 |
7 | 文件 从给定文件运行Python脚本 |
来自命令行的脚本
可以通过在您的应用程序上调用解释器来在命令行执行Python脚本,如下所示:
$python script.py # Unix/Linux or python% script.py # Unix/Linux or C: >python script.py # Windows/DOS
注意 - 确保文件权限模式允许执行。
集成开发环境
如果您在系统上拥有支持Python的GUI应用程序,则也可以从图形用户界面(GUI)环境运行Python。
Unix - IDLE是第一个用于Python的Unix IDE。
Windows - PythonWin是第一个用于Python的Windows界面,并且是一个带有GUI的IDE。
Macintosh - Macintosh版本的Python以及IDLE IDE都可以在主网站上下载,可以下载为MacBinary或BinHex'd文件。
安装NLTK包
将NLTK集成到Python环境中非常简单。使用以下命令将NLTK添加到环境中。
sudo pip install -U nltk
其他库的添加将在每个章节中根据我们在Python程序中使用它们的需要进行讨论。