在 Python 中找出数据集中的 k 个出现频率最高的单词
如果需要找出数据集中出现频率最高的 10 个单词,可以使用 collections 模块帮助我们找到。collections 模块有一个 counter 类,它会提供单词列表中的单词计数。我们还使用了 most_common 方法找出所需单词的数量(如程序输入中所述)。
示例
在下面的示例中,我们取一段文字,然后首先使用 split() 创建一个单词列表。然后我们将应用 counter() 找出所有单词的计数。最后,most_common 函数将为我们提供适当的结果,即出现频率最高的前 n 个单词。
from collections import Counter word_set = " This is a series of strings to count " \ "many words . They sometime hurt and words sometime inspire "\ "Also sometime fewer words convey more meaning than a bag of words "\ "Be careful what you speak or what you write or even what you think of. "\ # Create list of all the words in the string word_list = word_set.split() # Get the count of each word. word_count = Counter(word_list) # Use most_common() method from Counter subclass print(word_count.most_common(3))
输出
运行上述代码会向我们提供以下结果 −
[('words', 4), ('sometime', 3), ('what', 3)]
广告