语法解析:含义与意义


了解一个短语是为了获得语法可能会帮助我们理解它的含义。计算和语言学在自然语言处理中发生碰撞,重点关注计算机如何与人类语言交互。数据处理使用词法分析、语法分析、语义评估、语篇处理和语用分析

语法解析的含义

语法分析,有时称为解码,根据控制正式语法的语法原则检查语言字符串。英语单词“解码”的起源是拉丁语“pars”,意思是“部分”。语法解码旨在从加密货币(或原始)短语中预测语法树。普通词法分析器的输出是什么样的?

在定义树时,有必要知道每个单词的语法头部以及连接它们的边的依赖名称。这些信息可用于重建上图中的树。

使用自顶向下的方法进行解码

在这种情况下,词法分析器从起始符号反向构建解析树,目的是使起始符号与输入匹配。常见的自顶向下解码技术通常对输入使用递归方法。尽管递归下降解码有很多优点,但它有一个主要缺点,需要回溯。从输入符号开始,词法分析器尝试构建词法分析器房屋,直至起始符号。

在数据挖掘中利用语法树

语法树有多种数据挖掘应用。仅通过查看语句中单词的顺序,我们就可以知道曼彻斯特是获胜者,利物浦是失败者。我们还需要其他指示,因为多种语言(如俄语、西班牙语和德语)具有开放的词序。语法解码是面向语义任务的有希望的准备步骤,因为语法关系(主语、宾语等)具有明确的语义等价物。

超越计算机技能

一个句子可以给出多个基本语法解析。因此,需要超越计算机语法原则的知识来确定哪个解析是预期的。自从 20 世纪中叶计算机开始广泛使用以来,语法解码的研究一直在进行。几种基本语法建议使用各种形式来描述句子的结构结构。

计算重要性

鉴于计算的重要性,选区基本语法和依存语法都是包含这些形式的大类。两种困难都采用了各种方法,并且两种类别的词法分析器都需要不同的算法。随着使用各种形式(如通用依存关系)的人工标注树库的建立,解码的新算法和方法也随之发展。

表达式分组

这消除了某些语义歧义,与语法解码问题相关,并且通常甚至是一个子问题。可以从语法解析中提取形式语义,并将其用于信息提取(事件解码、语义函数标注、实体标注等)。

聚类组件

包括根据选区语法的形式主义(如最小化和宾夕法尼亚树库)进行解码。使用编码组件生成和合并规则的上下文无关语法 (CFG),我们可以识别哪些跨度包含成分(例如,“[那个人]在这里”)。此外,我们还可以识别成分的类型(例如,“[那个人]确实是一个名词短语”)。对于大多数算法起作用,必须将 CFG 转换为乔姆斯基的第三范式(每个组件有两个子节点)。但是,这是一个不会影响树的内容或表达力的过程。

上下文无关语法

CFG 提供了一种语言的语法,但没有描述如何分配结构。解析是使用语法的重写规则生成或重建特定单词序列(或短语结构树),解析是从句子构建的短语结构树

自顶向下解析从根节点 S 开始其搜索,并一直向下工作到叶子。这里的关键假设是,输入可以从语法中选择的起始符号 s 推断出来。下一步是发现所有以 s 开头的子树。我们使用其左侧具有 s 的所有语法规则扩展和根节点,以构建第二级搜索的子树。类似地,结果子树中的每个非终结符接下来都使用其左侧具有匹配非终结符的语法规则进行扩展。右侧的语法规则提供要形成的节点,这些节点将递归扩展。随着树向下发展,它最终到达一个点,即树的底部仅包含词性类别。在此步骤中,所有叶子与输入句子中的单词不匹配的树都被丢弃,只留下表示成功解析的树。

自底向上解析器从输入短语中的单词开始,一直向上工作到解析树的根。在每个步骤中,解析器在语言中搜索其右侧与迄今为止在解析树中构建的生成的一部分匹配的规则,并使用生成左侧将其缩减。如果解析器将树缩减为语法的起始符号,则解析成功。这些解析方法各有优缺点。当自顶向下搜索开始时,会生成具有起始符号的树。语法永远不会花费时间研究导致不同根的分支。但是,它会花费时间研究产生与输入矛盾的单词的 S 树。这是因为自顶向下解析器在查看输入之前构建树。另一方面,自底向上解析器永远不会探索与输入不匹配的树。但是,它会浪费时间创建永远不会导致 S 根树的树。

词法分析器,作为一个概念

这就是我们将解码付诸实践的方式。它是负责接收数据(文本)、根据正式语法验证其语法并输出该数据的结构化表示的软件。解析的最关键功能之一是,一旦恢复了典型的错误,就可以运行程序的其余部分,构建解析树,构建符号表,以及创建中间表示 (IR)。

最大右派性

最左派推导涉及读取其句子的输入并从左到右进行替换。在这里,我们得到句子的所谓左句式形式。

向右推导

:句子接句子,最左派推导读取输入并从右到左进行相应的更改。在这种情况下,正确的句子结构被称为“右句式形式”。

结论

它是数学或逻辑过程的视觉表示。解析树以派生起始符号为根。每个解析树在其叶节点处具有终结节点,在其内部节点处具有非终结节点。可以通过按顺序跟随解析树的节点来恢复原始输入字符串。可以根据其语法结构来描述格式良好的程序。因此,语法至关重要,语言语法是指口语的基本语法。从语言学研究开始,人们就一直试图为英语、印地语等自然语言定义语法。

更新于: 2023年1月2日

407 次查看

开启你的职业生涯

通过完成课程获得认证

立即开始
广告