- Python - 文本处理
- Python - 文本处理简介
- Python - 文本处理环境
- Python - 字符串不可变性
- Python - 对行进行排序
- Python - 重新格式化段落
- Python - 统计段落中的标记
- Python - 二进制 ASCII 转换
- Python - 字符串作为文件
- Python - 从后向前读取文件
- Python - 筛选重复词语
- Python - 从文本中提取电子邮件
- Python - 从文本中提取 URL
- Python - 美化打印
- Python - 文本处理状态机
- Python - 首字母大写并翻译
- Python - 分词
- Python - 移除停用词
- Python - 同义词和反义词
- Python - 文本翻译
- Python - 词汇替换
- Python - 拼写检查
- Python - WordNet 接口
- Python - 语料库访问
- Python - 标记词语
- Python - 成分和缺块
- Python - 成分分类
- Python - 文本分类
- Python - 二元语法
- Python - 处理 PDF
- Python - 处理 Word 文档
- Python - 读取 RSS 提要
- Python - 情感分析
- Python - 搜索和匹配
- Python - 文本整理
- Python - 文本换行
- Python - 频率分布
- Python - 文本摘要
- Python - 词干算法
- Python - 约束搜索
Python - 处理 Word 文档
要阅读 word 文档,我们可以借助名为 docx 的模块。我们首先安装 docx,如下所示。然后编写一个程序,使用 docx 模块中的不同函数,按段落读取整个文件。
我们使用以下命令将 docx 模块导入我们的环境。
pip install docx
在以下示例中,我们将 word 文档的内容读入一个段落,并最终打印出所有段落文本。
import docx def readtxt(filename): doc = docx.Document(filename) fullText = [] for para in doc.paragraphs: fullText.append(para.text) return '\n'.join(fullText) print (readtxt('path\Tutorialspoint.docx'))
当运行上述程序时,将得到以下输出 −
Tutorials Point originated from the idea that there exists a class of readers who respond better to online content and prefer to learn new skills at their own pace from the comforts of their drawing rooms. The journey commenced with a single tutorial on HTML in 2006 and elated by the response it generated, we worked our way to adding fresh tutorials to our repository which now proudly flaunts a wealth of tutorials and allied articles on topics ranging from programming languages to web designing to academics and much more.
读取单个段落
我们可以使用 paragraph 属性从 word 文档中读取特定段落。在以下示例中,我们只从 word 文档中读取第二个段落。
import docx doc = docx.Document('path\Tutorialspoint.docx') print len(doc.paragraphs) print doc.paragraphs[2].text
当运行上述程序时,将得到以下输出 −
The journey commenced with a single tutorial on HTML in 2006 and elated by the response it generated, we worked our way to adding fresh tutorials to our repository which now proudly flaunts a wealth of tutorials and allied articles on topics ranging from programming languages to web designing to academics and much more.
广告