- Python - 文本处理
- Python - 文本处理简介
- Python - 文本处理环境
- Python - 字符串不可变性
- Python - 排序行
- Python - 重新格式化段落
- Python - 统计段落中的标记
- Python - 二进制 ASCII 转换
- Python - 字符串作为文件
- Python - 向后文件读取
- Python - 过滤重复的单词
- Python - 从文本中提取电子邮件
- Python - 从文本中提取 URL
- Python - 美化打印
- Python - 文本处理状态机
- Python - 大写和翻译
- Python - 分词
- Python - 去除停用词
- Python - 同义词和反义词
- Python - 文本翻译
- Python - 单词替换
- Python - 拼写检查
- Python - WordNet 接口
- Python - 语料库访问
- Python - 词汇标记
- Python - 块和缺块
- Python - 块分类
- Python - 文本分类
- Python - 二元组
- Python - 处理 PDF
- Python - 处理 Word 文档
- Python - 读取 RSS 提要
- Python - 情感分析
- Python - 搜索和匹配
- Python - 文本整理
- Python - 文本换行
- Python - 频率分布
- Python - 文本摘要
- Python - 词干算法
- Python - 受限搜索
Python - 文本整理
整理一般是指通过转换清理任何杂乱的内容。在我们的案例中,我们将看到如何转换文本以获得一些结果,这些结果为我们的数据提供了一些所需的更改。在简单的层面上,它只涉及转换我们正在处理的文本。
示例
在下面的示例中,我们计划对一个句子中的所有字母(第一个和最后一个字母除外)进行随机排列,然后重新排列,以获得可能产生的备选单词,这些单词可能会在人类书写时出现拼写错误。这种重新排列有助于我们
import random import re def replace(t): inner_word = list(t.group(2)) random.shuffle(inner_word) return t.group(1) + "".join(inner_word) + t.group(3) text = "Hello, You should reach the finish line." print re.sub(r"(\w)(\w+)(\w)", replace, text) print re.sub(r"(\w)(\w+)(\w)", replace, text)
当我们运行上述程序时,将获得以下输出 −
Hlleo, You slouhd raech the fsiinh lnie. Hlleo, You suolhd raceh the fniish line.
在这里,您可以看到单词是如何混乱的,除了第一个和最后一个字母之外。通过采用统计方法来处理错误拼写,我们可以确定哪些是常见拼写错误的单词,并为它们提供正确的拼写。
广告