要在 Python 中删除字符串中的所有重复字符,我们需要首先按空格拆分字符串,以便我们拥有数组中的每个单词。然后有多种方法可以删除重复项。我们可以先将所有单词转换为小写,然后对它们进行排序,最后只选择唯一的单词来删除重复项。例如,示例sent = "Hi my name is John Doe John Doe is my name" # 分隔每个单词 words = sent.split(" ") # 将所有单词转换为小写 words = map(lambda x:x.lower(), words) # 按顺序排序单词 words.sort() ... 阅读更多
当计算机处理自然语言时,一些极其常见的词在帮助选择与用户需求匹配的文档方面似乎没有什么价值,这些词将完全从词汇表中排除。这些词称为停用词。例如,如果您将输入句子作为 -John is a person who takes care of the people around him。停用词去除后,您将得到输出 -['John', 'person', 'takes', 'care', 'people', 'around', '.'] NLTK 有一个这些停用词的集合,我们可以用它来从任何给定的句子中删除这些词。这在 NLTK.corpus 模块中。我们可以用它来过滤…… 阅读更多
电子邮件地址非常复杂,并且没有在世界各地都遵循的标准,这使得很难在正则表达式中识别电子邮件。RFC 5322 指定了电子邮件地址的格式。我们将使用此格式从文本中提取电子邮件地址。例如,对于给定的输入字符串 -Hi my name is John and email address is [email protected] and my friend's email is [email protected] 我们应该得到输出 [email protected][email protected] 我们可以使用以下正则表达式进行提取 -[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+ 我们可以使用 re 模块的 find all 方法提取电子邮件地址。例如,…… 阅读更多
我们在这里尝试解决的问题是将 CamelCase 转换为分离单词。我们可以使用正则表达式直接解决这个问题,方法是在给定字符串中查找所有大写字母的出现,并在其前面加上空格。我们可以使用 re 模块的 sub 方法。例如,对于输入字符串 -AReallyLongVariableNameInJava 我们应该得到输出 -A Really Long Variable Name In Java 我们可以使用“[A-Z]”正则表达式查找所有大写字母,然后用空格和该字母再次替换它们。我们可以使用 re 包按如下方式实现它 -示例 实时演示import re ... 阅读更多