使用 Python 中的 NLTK 对文本进行标记
给定一个字符序列和一个定义的文档单元,标记化是将它切分成片段的任务,称为标记,也许同时丢弃某些字符,例如标点符号。在 nltk 和 python 的背景下,它只是将每个标记放入列表中的过程,以便我们可以对一个时刻进行一个标记的迭代,而不是对每个字母进行迭代。
例如,给定输入字符串 −
Hi man, how have you been?
我们应该得到输出 −
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
我们可以使用 NLTK 中的 word_tokenize 方法标记化此文本。例如:
示例
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "Hi man, how have you been?" tokens = word_tokenize(my_sent) print(tokens)
输出
这将输出 −
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
广告
数据结构
网络
关系型数据库管理系统
操作系统
Java
iOS
HTML
CSS
Android
Python
C 编程
C++
C#
MongoDB
MySQL
Javascript
PHP