- Python - 文本处理
- Python - 文本处理入门
- Python - 文本处理环境
- Python - 字符串不变性
- Python - 排序行
- Python - 段落重新格式化
- Python - 统计段落中的词元
- Python - 二进制ASCII转换
- Python - 字符串作为文件
- Python - 反向读取文件
- Python - 过滤重复单词
- Python - 从文本中提取电子邮件
- Python - 从文本中提取URL
- Python - 美化打印
- Python - 文本处理状态机
- Python - 首字母大写和翻译
- Python - 词元化
- Python - 去除停用词
- Python - 同义词和反义词
- Python - 文本翻译
- Python - 单词替换
- Python - 拼写检查
- Python - WordNet接口
- Python - 语料库访问
- Python - 词性标注
- Python - 块和块隙
- Python - 块分类
- Python - 文本分类
- Python - 二元语法
- Python - 处理PDF
- Python - 处理Word文档
- Python - 读取RSS Feed
- Python - 情感分析
- Python - 搜索和匹配
- Python - 文本处理
- Python - 文本换行
- Python - 频率分布
- Python - 文本摘要
- Python - 词干提取算法
- Python - 受约束搜索
Python - 去除停用词
停用词是英语中那些不会给句子增加太多意义的词语。在不牺牲句子意义的情况下,可以安全地忽略它们。例如,“the”、“he”、“have”等词。这些词已经在名为corpus的语料库中捕获。我们首先将其下载到我们的python环境中。
import nltk nltk.download('stopwords')
它将下载一个包含英语停用词的文件。
验证停用词
from nltk.corpus import stopwords stopwords.words('english') print stopwords.words() [620:680]
运行以上程序后,我们将得到以下输出:
[u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she', u"she's", u'her', u'hers', u'herself', u'it', u"it's", u'its', u'itself', u'they', u'them', u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this', u'that', u"that'll", u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be', u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing', u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until', u'while', u'of', u'at']
除了英语之外,还有其他各种语言也包含这些停用词,如下所示。
from nltk.corpus import stopwords print stopwords.fileids()
运行以上程序后,我们将得到以下输出:
[u'arabic', u'azerbaijani', u'danish', u'dutch', u'english', u'finnish', u'french', u'german', u'greek', u'hungarian', u'indonesian', u'italian', u'kazakh', u'nepali', u'norwegian', u'portuguese', u'romanian', u'russian', u'spanish', u'swedish', u'turkish']
示例
我们使用以下示例来展示如何从单词列表中去除停用词。
from nltk.corpus import stopwords en_stops = set(stopwords.words('english')) all_words = ['There', 'is', 'a', 'tree','near','the','river'] for word in all_words: if word not in en_stops: print(word)
运行以上程序后,我们将得到以下输出:
There tree near river
广告