- Python - 文本处理
- Python - 文本处理简介
- Python - 文本处理环境
- Python - 字符串不可变性
- Python - 排序行
- Python - 重新设置段落格式
- Python - 统计段落中的词元
- Python - 二进制 ASCII 转换
- Python - 字符串作为文件
- Python - 向后文件读取
- Python - 过滤重复单词
- Python - 从文本中提取电子邮件
- Python - 从文本中提取 URL
- Python - 美化打印
- Python - 文本处理状态机
- Python - 将首字母大写并翻译
- Python - 标记化
- Python - 去除停用词
- Python - 同义词和反义词
- Python - 文本翻译
- Python - 单词替换
- Python - 拼写检查
- Python - WordNet 接口
- Python - 语料库访问
- Python - 标记单词
- Python - 块和缺口
- Python - 块分类
- Python - 文本分类
- Python - 二元组
- Python - 处理 PDF
- Python - 处理 Word 文档
- Python - 阅读 RSS 源
- Python - 情感分析
- Python - 搜索和匹配
- Python - 文本修改
- Python - 文本换行
- Python - 频率分布
- Python - 文本摘要
- Python - 词干算法
- Python - 受限搜索
Python - 语料库访问
语料库是一个由多个文本文档集合组成的群组。单个集合称为语料库。一个著名的语料库是古登堡语料库,它包含大约 25,000 本免费电子书,网址为 http://www.gutenberg.org/。在下面的示例中,我们访问语料库中仅以 .txt 为扩展名的普通文本文件的文件名称。
from nltk.corpus import gutenberg fields = gutenberg.fileids() print(fields)
当我们运行以上程序时,会得到以下输出 -
[austen-emma.txt', austen-persuasion.txt', austen-sense.txt', bible-kjv.txt', blake-poems.txt', bryant-stories.txt', burgess-busterbrown.txt', carroll-alice.txt', chesterton-ball.txt', chesterton-brown.txt', chesterton-thursday.txt', edgeworth-parents.txt', melville-moby_dick.txt', milton-paradise.txt', shakespeare-caesar.txt', shakespeare-hamlet.txt', shakespeare-macbeth.txt', whitman-leaves.txt']
访问原始文本
我们可以使用 nltk 中提供的 sent_tokenize 函数访问这些文件的原始文本。在下面的示例中,我们将 blake 诗歌文本的头两个段落检索出来。
from nltk.tokenize import sent_tokenize from nltk.corpus import gutenberg sample = gutenberg.raw("blake-poems.txt") token = sent_tokenize(sample) for para in range(2): print(token[para])
当我们运行以上程序时,会得到以下输出 -
[Poems by William Blake 1789] SONGS OF INNOCENCE AND OF EXPERIENCE and THE BOOK of THEL SONGS OF INNOCENCE INTRODUCTION Piping down the valleys wild, Piping songs of pleasant glee, On a cloud I saw a child, And he laughing said to me: "Pipe a song about a Lamb!" So I piped with merry cheer.
广告