NLP - 语言资源
在本章中,我们将学习自然语言处理中的语言资源。
语料库
语料库是指在自然交流环境中产生的大规模、结构化的机器可读文本集合。其复数形式为 corpora。它们可以通过多种方式获取,例如最初为电子文本、口语记录的转录以及光学字符识别等。
语料库设计的要素
语言是无限的,但语料库的大小必须是有限的。为了使语料库的大小有限,我们需要进行抽样并按比例包含各种文本类型,以确保良好的语料库设计。
现在让我们学习一些语料库设计的重要要素 -
语料库的代表性
代表性是语料库设计的一个决定性特征。以下来自两位优秀研究人员 - Leech 和 Biber 的定义将帮助我们理解语料库的代表性 -
根据 Leech(1991)的说法,“如果基于语料库内容的发现可以推广到所述语言变体,则认为该语料库代表了它应该代表的语言变体”。
根据 Biber(1993)的说法,“代表性指的是样本包含总体中全部变异范围的程度”。
这样,我们可以得出结论,语料库的代表性由以下两个因素决定 -
平衡 - 语料库中包含的体裁范围
抽样 - 如何选择每个体裁的片段。
语料库平衡
语料库设计的另一个非常重要的要素是语料库平衡 - 语料库中包含的体裁范围。我们已经学习过,一般语料库的代表性取决于语料库的平衡程度。一个平衡的语料库涵盖了广泛的文本类别,这些类别应该代表该语言。我们没有可靠的科学衡量标准来衡量平衡性,但最佳估计和直觉在此方面发挥作用。换句话说,我们可以说,公认的平衡性仅由其预期用途决定。
抽样
语料库设计的另一个重要要素是抽样。语料库的代表性和平衡性与抽样密切相关。这就是为什么我们可以说抽样在语料库构建中是不可避免的。
根据Biber(1993)的说法,“构建语料库时,首先需要考虑一些问题,这些问题与整体设计有关:例如,包含的文本类型、文本数量、特定文本的选择、文本内文本样本的选择以及文本样本的长度。这些都涉及抽样决策,无论是有意识的还是无意识的。”
在获取代表性样本时,我们需要考虑以下因素 -
抽样单位 - 它指的是需要抽样的单位。例如,对于书面文本,抽样单位可以是报纸、期刊或书籍。
抽样框 - 所有抽样单位的列表称为抽样框。
总体 - 它可以指所有抽样单位的集合。它根据语言的产生、语言的接收或语言作为产品来定义。
语料库规模
语料库设计的另一个重要要素是其规模。语料库应该有多大?这个问题没有明确的答案。语料库的规模取决于其预期用途以及以下一些实际考虑因素 -
用户预期的查询类型。
用户用来研究数据的方法。
数据来源的可用性。
随着技术的进步,语料库规模也在不断增加。下表中的比较将帮助您了解语料库规模的工作原理 -
年份 | 语料库名称 | 规模(以词计) |
---|---|---|
1960 年代 - 70 年代 | Brown 和 LOB | 100 万词 |
1980 年代 | 伯明翰语料库 | 2000 万词 |
1990 年代 | 英国国家语料库 | 1 亿词 |
21 世纪初 | 英语语料库 | 6.5 亿词 |
在我们接下来的部分中,我们将查看一些语料库示例。
树库语料库
它可以定义为在语法或语义句子结构上进行注释的语言解析文本语料库。Geoffrey Leech 创造了“树库”一词,它表示表示语法分析最常见的方式是通过树形结构。通常,树库是在已经用词性标记进行注释的语料库的基础上创建的。
树库语料库的类型
语义树库和语法树库是语言学中最常见的两种树库类型。现在让我们进一步了解这些类型 -
语义树库
这些树库使用句子的语义结构的正式表示。它们在语义表示的深度上有所不同。机器人命令树库、Geoquery、格罗宁根意义银行、RoboCup 语料库是语义树库的一些示例。
语法树库
与语义树库相反,语法树库系统的输入是从解析的树库数据转换得到的形式语言的表达式。此类系统的输出是基于谓词逻辑的含义表示。迄今为止,已经创建了各种不同语言的语法树库。例如,宾夕法尼亚阿拉伯语树库、哥伦比亚阿拉伯语树库是在阿拉伯语中创建的语法树库。Sininca 语法树库是在中文中创建的。Lucy、Susane 和BLLIP WSJ 语法语料库是在英语中创建的。
树库语料库的应用
以下是树库的一些应用 -
在计算语言学中
如果我们谈论计算语言学,那么树库的最佳用途是设计最先进的自然语言处理系统,例如词性标注器、解析器、语义分析器和机器翻译系统。
在语料库语言学中
在语料库语言学的情况下,树库的最佳用途是研究语法现象。
在理论语言学和心理语言学中
树库在理论语言学和心理语言学中的最佳用途是交互证据。
PropBank 语料库
PropBank,更具体地称为“命题库”,是一个语料库,它用动词命题及其论元进行注释。该语料库是一个面向动词的资源;这里的注释与语法级别更密切相关。Martha Palmer 等人,科罗拉多大学博尔德分校语言学系开发了它。我们可以使用“PropBank”一词作为普通名词,指代任何用命题及其论元进行注释的语料库。
在自然语言处理 (NLP) 中,PropBank 项目发挥了非常重要的作用。它有助于语义角色标注。
VerbNet(VN)
VerbNet(VN) 是英语中存在的最大的、与领域无关的分层词汇资源,它结合了关于其内容的语义和语法信息。VN 是一个覆盖范围广泛的动词词典,它与其他词汇资源(如 WordNet、Xtag 和 FrameNet)具有映射关系。它被组织成动词类,通过细化和添加子类来扩展 Levin 类,以在类成员之间实现语法和语义的一致性。
每个 VerbNet (VN) 类包含 -
一组语法描述或语法框架
用于描述诸如及物、不及物、介词短语、结果状语等结构的论元结构的可能表面实现,以及大量变格交替。
一组语义描述,例如有生命、人类、组织
用于约束论元允许的主题角色类型,并且可以施加进一步的限制。这将有助于指示可能与主题角色相关的成分的语法性质。
WordNet
WordNet 由普林斯顿大学创建,是一个英语词汇数据库。它是 NLTK 语料库的一部分。在 WordNet 中,名词、动词、形容词和副词被分组到称为同义词集的认知同义词集中。所有同义词集都通过概念语义和词汇关系相互链接。其结构使其对自然语言处理 (NLP) 非常有用。
在信息系统中,WordNet 用于各种目的,例如词义消歧、信息检索、自动文本分类和机器翻译。WordNet 最重要的用途之一是找出单词之间的相似性。对于此任务,各种算法已在各种包中实现,例如 Perl 中的 Similarity、Python 中的 NLTK 和 Java 中的 ADW。