在 Python 中找出数据集中的 k 个出现频率最高的单词


如果需要找出数据集中出现频率最高的 10 个单词,可以使用 collections 模块帮助我们找到。collections 模块有一个 counter 类,它会提供单词列表中的单词计数。我们还使用了 most_common 方法找出所需单词的数量(如程序输入中所述)。

示例

在下面的示例中,我们取一段文字,然后首先使用 split() 创建一个单词列表。然后我们将应用 counter() 找出所有单词的计数。最后,most_common 函数将为我们提供适当的结果,即出现频率最高的前 n 个单词。

from collections import Counter
word_set = " This is a series of strings to count " \
   "many words . They sometime hurt and words sometime inspire "\
   "Also sometime fewer words convey more meaning than a bag of words "\
   "Be careful what you speak or what you write or even what you think of. "\
# Create list of all the words in the string
word_list = word_set.split()

# Get the count of each word.
word_count = Counter(word_list)

# Use most_common() method from Counter subclass
print(word_count.most_common(3))

输出

运行上述代码会向我们提供以下结果 −

[('words', 4), ('sometime', 3), ('what', 3)]

更新于: 07-08-2019

957 次浏览

开启你的职业生涯

完成课程即可获得认证

开始
广告