使用 Python 中的 NLTK 对文本进行标记


给定一个字符序列和一个定义的文档单元,标记化是将它切分成片段的任务,称为标记,也许同时丢弃某些字符,例如标点符号。在 nltk 和 python 的背景下,它只是将每个标记放入列表中的过程,以便我们可以对一个时刻进行一个标记的迭代,而不是对每个字母进行迭代。

例如,给定输入字符串 −

Hi man, how have you been?

我们应该得到输出 −

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

我们可以使用 NLTK 中的 word_tokenize 方法标记化此文本。例如:

示例

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

输出

这将输出 −

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

更新于: 20-6 月 -2020

749 次浏览

开启你的职业生涯

获得认证,完成课程

开始
广告
© . All rights reserved.