使用 Python 中的 NLTK 对文本进行标记

给定一个字符序列和一个定义明确的文件单位，标记化任务就是将字符序列切成多个称为标记的块，同时可能丢弃掉某些字符，比如标点符号。在 NLTK 和 Python 语境中，标记化仅仅是将每个标记放入列表中，这样我们就可以对标记进行迭代，而不必每次对单个字母进行迭代。

例如，给定输入字符串 −

Hi man, how have you been?

我们将获得以下输出 −

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

我们可使用 NLTK 中的 word_tokenize 方法对这段文本进行标记化。例如，

示例代码

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

输出内容

将输出以下内容 −

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

karthikeya Boyini

更新时间：20-Jun-2020

749 次浏览

开启您的职业生涯

通过完成本课程获得认证

开始学习

使用 Python 中的 NLTK 对文本进行标记

示例代码

输出内容

开启您的 职业生涯

开启您的职业生涯