自然语言篇章处理

人工智能最困难的问题之一是让计算机处理自然语言，换句话说，自然语言处理是人工智能中最困难的问题之一。如果我们谈论NLP中的主要问题，那么NLP中的一个主要问题就是篇章处理——构建关于语句如何组合在一起形成连贯篇章的理论和模型。实际上，语言总是由并置的、结构化的和连贯的句子组构成，而不是像电影那样孤立且无关的句子。这些连贯的句子组被称为篇章。

连贯性概念

连贯性和篇章结构在许多方面是相互关联的。连贯性，连同优秀文本的特性一起，被用来评估自然语言生成系统的输出质量。这里出现的问题是，文本连贯是什么意思？假设我们从报纸的每一页收集一个句子，那它会是一个篇章吗？当然不会。这是因为这些句子没有表现出连贯性。连贯的篇章必须具备以下特性：

语句之间的连贯关系

如果篇章的语句之间存在有意义的联系，那么该篇章就是连贯的。此特性称为连贯关系。例如，必须有一些解释来证明语句之间的联系。

实体之间的关系

使篇章连贯的另一个特性是，实体之间必须存在某种关系。这种连贯性称为基于实体的连贯性。

篇章结构

关于篇章的一个重要问题是篇章必须具有什么样的结构。这个问题的答案取决于我们对篇章进行的分割。篇章分割可以定义为确定大型篇章的结构类型。实现篇章分割相当困难，但对于信息检索、文本摘要和信息提取之类的应用非常重要。

篇章分割算法

在本节中，我们将学习关于篇章分割算法的内容。算法如下：

无监督篇章分割

无监督篇章分割的类别通常表示为线性分割。我们可以通过一个例子来理解线性分割的任务。在这个例子中，有一个将文本分割成多段单元的任务；这些单元代表原文的段落。这些算法依赖于内聚力，内聚力可以定义为使用某些语言手段将文本单元联系在一起。另一方面，词汇内聚力是指由两个或多个单元中的两个或多个词之间的关系所指示的内聚力，例如同义词的使用。

有监督篇章分割

前面方法没有任何手工标记的段落边界。另一方面，有监督的篇章分割需要具有边界标记的训练数据。获得这些数据很容易。在有监督的篇章分割中，篇章标记或提示词起着重要作用。篇章标记或提示词是指起着指示篇章结构作用的词或短语。这些篇章标记是特定于领域的。

文本连贯性

词汇重复是查找篇章结构的一种方法，但它不满足连贯篇章的要求。为了实现连贯的篇章，我们必须特别关注连贯关系。众所周知，连贯关系定义了篇章中语句之间可能的联系。Hebb 提出了以下几种关系：

我们采用两个术语S₀和S₁来表示两个相关句子的含义：

结果

它推断术语S₀所断言的状态可能导致术语S₁所断言的状态。例如，两个陈述显示了结果关系： राम着火了。他的皮肤烧伤了。

解释

它推断术语S₁所断言的状态可能导致术语S₀所断言的状态。例如，两个陈述显示了关系： राम与 Shyam 的朋友打架。他喝醉了。

并列

它从S₀的断言中推断 p(a1,a2,…)，从S₁的断言中推断 p(b1,b2,…)。这里对于所有 i，ai 和 bi 都是相似的。例如，两个陈述是并列的： राम想要一辆车。Shyam想要钱。

阐述

它从两个断言——S₀和S₁中推断出相同的命题 P。例如，两个陈述显示了阐述关系： राम来自昌迪加尔。Shyam来自喀拉拉邦。

场合

当可以从S₀的断言中推断出状态变化时，其最终状态可以从S₁中推断出来，反之亦然。例如，这两个陈述显示了场合关系： राम捡起了书。他把它给了Shyam。

构建分层篇章结构

整个篇章的连贯性也可以通过连贯关系之间的层次结构来考虑。例如，以下段落可以表示为层次结构：

S₁ - राम去银行存钱。
S₂ - 然后他乘火车去了Shyam的布店。
S₃ - 他想买些衣服。
S₄ - 他没有参加聚会的衣服。
S₅ - 他还想和Shyam谈谈他的健康状况。

Building Hierarchical Discourse Structure

指代消解

解释任何篇章中的句子是另一项重要任务，为了实现这一点，我们需要知道正在谈论的是谁或什么实体。在这里，解释指代是关键要素。指代可以定义为表示实体或个体的语言表达。例如，在段落中，Ram，ABC银行的经理，在一家商店看到了他的朋友Shyam。他去见他，像Ram、His、He这样的语言表达就是指代。

同样，指代消解可以定义为确定哪些语言表达指的是哪些实体的任务。

指代消解中使用的术语

我们在指代消解中使用以下术语：

指称表达 - 用于执行指代的自然语言表达称为指称表达。例如，上面使用的段落是一个指称表达。
指称对象 - 它是所指的实体。例如，在最后一个例子中，Ram是一个指称对象。
同指 - 当两个表达用于指代同一个实体时，它们被称为同指。例如，Ram和he是同指的。
先行词 - 该术语有权使用另一个术语。例如，Ram是he指代的先行词。
回指 & 回指的 - 它可以定义为对之前已引入句子的实体的指代。并且，指称表达被称为回指的。
篇章模型 - 包含已在篇章中提及的实体及其参与的关系的表示的模型。

指称表达的类型

现在让我们看看不同类型的指称表达。五种类型的指称表达如下：

不定名词短语

这种类型的指代代表了对听者来说是篇章上下文中新出现的实体。例如 - 在句子 राम有一天四处走动给他带些食物中 - some 是一个不定指代。

定名词短语

与上面相反，这种类型的指代代表了对听者来说不是新的或可识别的篇章上下文中出现的实体。例如，在句子 - 我过去常读《印度时报》中 - 《印度时报》是一个定指代。

代词

它是定指代的一种形式。例如，Ram 尽可能大声地笑了起来。单词he代表代词指称表达。

指示词

这些指示词的行为与简单的定代词不同。例如，this 和 that 是指示代词。

名称

这是最简单的指称表达类型。它也可以是人、组织和地点的名称。例如，在上面的例子中，Ram 是名称指称表达。

指代消解任务

下面描述了两个指代消解任务。

同指消解

这是在文本中查找指代同一实体的指称表达的任务。简单来说，这是查找同指表达的任务。一组同指表达被称为同指链。例如 - He，首席经理和 His - 这些是第一个例子段落中的指称表达。

同指消解的约束

在英语中，同指消解的主要问题是代词 it。其背后的原因是代词 it 有多种用途。例如，它可以像 he 和 she 一样指代。代词 it 也指代那些不指代特定事物的事物。例如，It’s raining。It is really good。

代词回指消解

与同指消解不同，代词回指消解可以定义为查找单个代词先行词的任务。例如，代词是 his，代词回指消解的任务是找到单词 Ram，因为 Ram 是先行词。

打印页面