使用 Python 中的 NLTK 对文本进行标记


给定一个字符序列和一个定义明确的文件单位,标记化任务就是将字符序列切成多个称为标记的块,同时可能丢弃掉某些字符,比如标点符号。在 NLTK 和 Python 语境中,标记化仅仅是将每个标记放入列表中,这样我们就可以对标记进行迭代,而不必每次对单个字母进行迭代。

例如,给定输入字符串 −

Hi man, how have you been?

我们将获得以下输出 −

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

我们可使用 NLTK 中的 word_tokenize 方法对这段文本进行标记化。例如,

示例代码

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

输出内容

将输出以下内容 −

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

更新时间:20-Jun-2020

749 次浏览

开启您的 职业生涯

通过完成本课程获得认证

开始学习
广告