要从 Python 中的字符串中删除所有重复字符,我们需要首先按空格分割字符串,以便在数组中获得每个单词。然后有多种方法可以删除重复项。我们可以通过首先将所有单词转换为小写,然后对它们进行排序,最后只选择唯一的单词来删除重复项。例如,示例sent = "Hi my name is John Doe John Doe is my name" # 分隔每个单词words = sent.split(" ") # 将所有单词转换为小写words = map(lambda x:x.lower(), words) # 按顺序排序单词words.sort() ... 阅读更多
当计算机处理自然语言时,一些非常常见的单词(这些单词似乎在帮助选择匹配用户需求的文档方面价值不大)完全从词汇表中排除。这些词称为停用词。例如,如果您提供输入句子为 -John is a person who takes care of the people around him.停用词删除后,您将获得输出 -['John', 'person', 'takes', 'care', 'people', 'around', '.']NLTK 有一组这些停用词,我们可以使用它们从任何给定的句子中删除它们。这在 NLTK.corpus 模块中。我们可以用它来过滤 ... 阅读更多