使用 Python 中的 NLTK 对文本进行标记
给定一个字符序列和一个定义明确的文件单位,标记化任务就是将字符序列切成多个称为标记的块,同时可能丢弃掉某些字符,比如标点符号。在 NLTK 和 Python 语境中,标记化仅仅是将每个标记放入列表中,这样我们就可以对标记进行迭代,而不必每次对单个字母进行迭代。
例如,给定输入字符串 −
Hi man, how have you been?
我们将获得以下输出 −
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
我们可使用 NLTK 中的 word_tokenize 方法对这段文本进行标记化。例如,
示例代码
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "Hi man, how have you been?" tokens = word_tokenize(my_sent) print(tokens)
输出内容
将输出以下内容 −
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
广告