NLP - 词义消歧
我们理解,单词的含义会根据其在句子中的使用语境而有所不同。如果我们谈论人类语言,那么它们也存在歧义,因为许多单词可以根据其出现的语境以多种方式解释。
在自然语言处理 (NLP) 中,词义消歧可以定义为确定在特定语境中使用单词时激活了单词的哪种含义的能力。词汇歧义(语法或语义)是任何 NLP 系统面临的首要问题之一。具有高准确度的词性 (POS) 标注器可以解决单词的语法歧义。另一方面,解决语义歧义的问题称为 WSD(词义消歧)。解决语义歧义比解决语法歧义更难。
例如,考虑单词“bass”存在的两种不同含义:
我能听到低音。
他喜欢吃烤鲈鱼。
单词“bass”的出现清楚地表明了不同的含义。在第一个句子中,它表示频率,在第二个句子中,它表示鱼。因此,如果通过 WSD 消除歧义,则可以为上述句子分配正确的含义,如下所示:
我能听到低音/频率。
他喜欢吃烤鲈鱼/鱼。
WSD 的评估
WSD 的评估需要以下两个输入:
词典
WSD 评估的第一个输入是词典,用于指定要消除歧义的含义。
测试语料库
WSD 需要的另一个输入是具有目标或正确含义的高注释测试语料库。测试语料库可以分为两种类型:
词汇样本 - 这种语料库用于需要消除少量单词歧义的系统。
所有单词 - 这种语料库用于需要消除一段运行文本中所有单词歧义的系统。
词义消歧 (WSD) 的方法和途径
WSD 的方法和途径根据词义消歧中使用的知识来源进行分类。
现在让我们看看 WSD 的四种传统方法:
基于词典或基于知识的方法
顾名思义,这些方法主要依赖于词典、宝库和词汇知识库来消除歧义。它们不使用语料库证据来消除歧义。Lesk 方法是由 Michael Lesk 于 1986 年提出的开创性的基于词典的方法。Lesk 算法基于的 Lesk 定义是“衡量所有上下文单词的含义定义之间的重叠”。然而,在 2000 年,Kilgarriff 和 Rosensweig 将简化的 Lesk 定义为“衡量单词含义定义与当前上下文之间的重叠”,这进一步意味着一次识别一个单词的正确含义。这里,当前上下文是指周围句子或段落中的词集。
监督方法
为了消除歧义,机器学习方法利用含义注释语料库进行训练。这些方法假设上下文本身可以提供足够的证据来消除歧义。在这些方法中,单词知识和推理被认为是不必要的。上下文表示为单词的一组“特征”。它还包括有关周围单词的信息。支持向量机和基于记忆的学习是 WSD 最成功的监督学习方法。这些方法依赖于大量手动含义标记的语料库,创建这些语料库的成本非常高。
半监督方法
由于缺乏训练语料库,大多数词义消歧算法使用半监督学习方法。这是因为半监督方法同时使用标记数据和未标记数据。这些方法需要少量注释文本和大量纯未注释文本。半监督方法使用的一种技术是从种子数据中引导。
无监督方法
这些方法假设相似的含义出现在相似的上下文中。这就是为什么可以通过使用某种上下文相似性度量来对单词出现进行聚类,从而从文本中推导出含义。此任务称为词义归纳或辨别。由于不依赖于人工操作,无监督方法在克服知识获取瓶颈方面具有巨大潜力。
词义消歧 (WSD) 的应用
词义消歧 (WSD) 应用于几乎所有语言技术应用。
现在让我们看看 WSD 的范围:
机器翻译
机器翻译或 MT 是 WSD 最明显的应用。在 MT 中,WSD 用于为具有不同含义的不同翻译的单词选择词汇。MT 中的含义表示为目标语言中的单词。大多数机器翻译系统不使用显式的 WSD 模块。
信息检索 (IR)
信息检索 (IR) 可以定义为一种软件程序,用于处理从文档存储库(特别是文本信息)中组织、存储、检索和评估信息。该系统基本上帮助用户找到他们需要的信息,但它不会明确地返回问题的答案。WSD 用于解决提供给 IR 系统的查询的歧义。与 MT 一样,当前的 IR 系统不显式地使用 WSD 模块,它们依赖于用户在查询中键入足够上下文以仅检索相关文档的概念。
文本挖掘和信息提取 (IE)
在大多数应用中,WSD 对于进行准确的文本分析是必要的。例如,WSD 帮助智能收集系统标记正确的单词。例如,医疗智能系统可能需要标记“非法药物”而不是“医疗药物”。
词典编纂学
WSD 和词典编纂学可以循环工作,因为现代词典编纂学是基于语料库的。借助词典编纂学,WSD 提供粗略的经验意义分组以及含义的统计显着上下文指标。
词义消歧 (WSD) 的困难
以下是词义消歧 (WSD) 面临的一些困难:
词典之间的差异
WSD 的主要问题是确定单词的含义,因为不同的含义可能非常密切相关。即使不同的词典和同义词词典也会提供将单词划分为含义的不同划分。
不同应用的不同算法
WSD 的另一个问题是,对于不同的应用可能需要完全不同的算法。例如,在机器翻译中,它采用目标词选择的形式;在信息检索中,不需要含义清单。
评判者间差异
WSD 的另一个问题是,WSD 系统通常通过将其在任务上的结果与人类的任务进行比较来进行测试。这被称为评判者间差异问题。
词义离散性
WSD 的另一个困难是,单词不能轻易地划分为离散的子含义。