自然语言工具包 - 词语替换



词干提取和词形还原可以被认为是一种语言压缩。同样,词语替换可以被认为是文本规范化或错误纠正。

但是为什么我们需要词语替换呢?假设我们谈论标记化,那么它在处理缩写(如can’t、won’t等)时存在问题。因此,为了处理此类问题,我们需要词语替换。例如,我们可以用它们的扩展形式替换缩写。

使用正则表达式的词语替换

首先,我们将替换与正则表达式匹配的单词。为此,我们必须对正则表达式以及python re模块有一个基本的了解。在下面的示例中,我们将使用正则表达式将缩写替换为它们的扩展形式(例如,“can’t”将替换为“cannot”)。

示例

首先,导入必要的包re来使用正则表达式。

import re
from nltk.corpus import wordnet

接下来,定义您选择的替换模式,如下所示:

R_patterns = [
   (r'won\'t', 'will not'),
   (r'can\'t', 'cannot'),
   (r'i\'m', 'i am'),
   r'(\w+)\'ll', '\g<1> will'),
   (r'(\w+)n\'t', '\g<1> not'),
   (r'(\w+)\'ve', '\g<1> have'),
   (r'(\w+)\'s', '\g<1> is'),
   (r'(\w+)\'re', '\g<1> are'),
]

现在,创建一个可用于替换单词的类:

class REReplacer(object):
   def __init__(self, pattern = R_patterns):
      self.pattern = [(re.compile(regex), repl) for (regex, repl) in patterns]
   def replace(self, text):
      s = text
      for (pattern, repl) in self.pattern:
         s = re.sub(pattern, repl, s)
      return s

保存此python程序(例如repRE.py),并从python命令提示符运行它。运行后,当您想要替换单词时,导入REReplacer类。让我们看看如何操作。

from repRE import REReplacer
rep_word = REReplacer()
rep_word.replace("I won't do it")
Output:
'I will not do it'
rep_word.replace("I can’t do it")
Output:
'I cannot do it'

完整的实现示例

import re
from nltk.corpus import wordnet
R_patterns = [
   (r'won\'t', 'will not'),
   (r'can\'t', 'cannot'),
   (r'i\'m', 'i am'),
   r'(\w+)\'ll', '\g<1> will'),
   (r'(\w+)n\'t', '\g<1> not'),
   (r'(\w+)\'ve', '\g<1> have'),
   (r'(\w+)\'s', '\g<1> is'),
   (r'(\w+)\'re', '\g<1> are'),
]
class REReplacer(object):
def __init__(self, patterns=R_patterns):
   self.patterns = [(re.compile(regex), repl) for (regex, repl) in patterns]
def replace(self, text):
   s = text
   for (pattern, repl) in self.patterns:
      s = re.sub(pattern, repl, s)
   return s

现在,保存上述程序并运行后,您可以导入该类并按如下方式使用它:

from replacerRE import REReplacer
rep_word = REReplacer()
rep_word.replace("I won't do it")

输出

'I will not do it'

文本处理前的替换

在处理自然语言处理 (NLP) 时,一种常见的做法是在文本处理之前清理文本。在这方面,我们也可以使用我们在前面示例中创建的REReplacer类作为文本处理(即标记化)之前的初步步骤。

示例

from nltk.tokenize import word_tokenize
from replacerRE import REReplacer
rep_word = REReplacer()
word_tokenize("I won't be able to do this now")
Output:
['I', 'wo', "n't", 'be', 'able', 'to', 'do', 'this', 'now']
word_tokenize(rep_word.replace("I won't be able to do this now"))
Output:
['I', 'will', 'not', 'be', 'able', 'to', 'do', 'this', 'now']

在上面的Python示例中,我们可以很容易地理解使用和不使用正则表达式替换的词语标记器的输出之间的区别。

重复字符的移除

我们在日常语言中是否严格遵循语法?不,我们没有。例如,有时我们会写“Hiiiiiiiiiiii Mohan”来强调“Hi”这个词。但是计算机系统不知道“Hiiiiiiiiiiii”是“Hi”这个词的变体。在下面的示例中,我们将创建一个名为rep_word_removal的类,该类可用于移除重复的单词。

示例

首先,导入必要的包re来使用正则表达式

import re
from nltk.corpus import wordnet

现在,创建一个可用于移除重复单词的类:

class Rep_word_removal(object):
   def __init__(self):
      self.repeat_regexp = re.compile(r'(\w*)(\w)\2(\w*)')
      self.repl = r'\1\2\3'
   def replace(self, word):
      if wordnet.synsets(word):
      return word
   repl_word = self.repeat_regexp.sub(self.repl, word)
   if repl_word != word:
      return self.replace(repl_word)
   else:
      return repl_word

保存此python程序(例如removalrepeat.py),并从python命令提示符运行它。运行后,当您想要移除重复的单词时,导入Rep_word_removal类。让我们看看如何操作?

from removalrepeat import Rep_word_removal
rep_word = Rep_word_removal()
rep_word.replace ("Hiiiiiiiiiiiiiiiiiiiii")
Output:
'Hi'
rep_word.replace("Hellooooooooooooooo")
Output:
'Hello'

完整的实现示例

import re
from nltk.corpus import wordnet
class Rep_word_removal(object):
   def __init__(self):
      self.repeat_regexp = re.compile(r'(\w*)(\w)\2(\w*)')
      self.repl = r'\1\2\3'
   def replace(self, word):
      if wordnet.synsets(word):
         return word
   replace_word = self.repeat_regexp.sub(self.repl, word)
   if replace_word != word:
      return self.replace(replace_word)
   else:
      return replace_word

现在,保存上述程序并运行后,您可以导入该类并按如下方式使用它:

from removalrepeat import Rep_word_removal
rep_word = Rep_word_removal()
rep_word.replace ("Hiiiiiiiiiiiiiiiiiiiii")

输出

'Hi'
广告