自然语言处理 - 起源
本章将讨论自然语言处理中的自然语言起源。首先,让我们先了解什么是自然语言语法。
自然语言语法
在语言学中,语言是一组任意的语音符号。我们可以说语言是创造性的、受规则支配的、先天的,同时也是普遍的。另一方面,它也是人类的。不同人的语言性质不同。关于语言的性质有很多误解。这就是为什么理解含糊不清的术语“语法”的含义非常重要的原因。在语言学中,语法可以定义为语言运作所依据的规则或原则。广义上,我们可以将语法分为两类:
描写语法
语言学家和语法学家根据说话者的语法制定的规则集合称为描写语法。
规范语法
这是语法的另一种意义,它试图维持语言的正确性标准。这一类别与语言的实际运作关系不大。
语言的组成部分
研究的语言被划分为相互关联的组成部分,这些部分是语言研究的约定俗成的和任意的划分。这些组成部分的解释如下:
音系学
语言的第一个组成部分是音系学。它是对特定语言语音的研究。这个词的起源可以追溯到希腊语,其中“phone”的意思是声音或语音。音韵学的一个分支——语音学,是从语音的产生、感知或物理属性的角度研究人类语言的语音。国际音标 (IPA) 是一种工具,它在研究音系学时以规范的方式表示人类的声音。在 IPA 中,每个书写符号都代表一个且只有一个语音,反之亦然。
音素
它可以定义为语言中区分一个词与另一个词的声音单位之一。在语言学中,音素写在斜线之间。例如,音素/k/出现在诸如 kit、skit 等词中。
形态学
它是语言的第二个组成部分。它是对特定语言中词的结构和分类的研究。这个词的起源来自希腊语,其中“morphe”的意思是“形式”。形态学考虑的是语言中词的构成原则。换句话说,声音是如何组合成有意义的单位,如前缀、后缀和词根。它还考虑如何将单词分组为词性。
词素
在语言学中,形态学分析的抽象单位对应于单个词的一组形式,称为词素。词素在句子中的使用方法由其语法类别决定。词素可以是单个词或多词。例如,单词 talk 是单个词词素的一个例子,它可能有许多语法变体,如 talks、talked 和 talking。多词词素可以由多个拼写词组成。例如,speak up、pull through 等是多词词素的例子。
句法
它是语言的第三个组成部分。它是对单词排列成更大单位的研究。这个词可以追溯到希腊语,其中 suntassein 的意思是“按顺序排列”。它研究句子的类型及其结构、从句、短语。
语义学
它是语言的第四个组成部分。它是关于如何表达意义的研究。意义可以与外部世界相关,也可以与句子的语法相关。这个词可以追溯到希腊语,其中 semainein 的意思是“表示”、“显示”、“信号”。
语用学
它是语言的第五个组成部分。它是对语言的功能及其在语境中的使用的研究。这个词的起源可以追溯到希腊语,其中“pragma”的意思是“行为”、“事件”。
语法范畴
语法范畴可以定义为语言语法中的一类单位或特征。这些单位是语言的构建块,并共享一组共同的特征。语法范畴也称为语法特征。
语法范畴的清单如下:
数
这是最简单的语法范畴。我们有两个与这个类别相关的术语——单数和复数。单数是“一”的概念,而复数是“多于一”的概念。例如,dog/dogs,this/these。
性
语法性由人称代词和第三人称的变化表示。语法性的例子是单数——he、she、it;第一和第二人称形式——I、we 和 you;第三人称复数形式 they,是普通性别或中性性别。
人称
另一个简单的语法范畴是人称。在此之下,识别以下三个术语:
第一人称——说话的人被认为是第一人称。
第二人称——听者或被谈到的人被认为是第二人称。
第三人称——我们谈论的人或物被认为是第三人称。
格
这是最难的语法范畴之一。它可以定义为名词短语 (NP) 功能的指示,或名词短语与动词或句子中其他名词短语的关系。我们有人称和疑问代词中表达的以下三种格:
主格——它是主语的功能。例如,I、we、you、he、she、it、they 和 who 是主格。
属格——它是所有者的功能。例如,my/mine、our/ours、his、her/hers、its、their/theirs、whose 是属格。
宾格——它是宾语的功能。例如,me、us、you、him、her、them、whom 是宾格。
等级
这个语法范畴与形容词和副词有关。它有以下三个术语:
原级——它表达一种品质。例如,big、fast、beautiful 是原级。
比较级——它表达两项中一项的品质程度或强度更大。例如,bigger、faster、more beautiful 是比较级。
最高级——它表达三项或更多项中一项的品质程度或强度最大。例如,biggest、fastest、most beautiful 是最高级。
限定性和非限定性
这两个概念都很简单。限定性表示说话者或听者知道、熟悉或可识别的指示对象。另一方面,非限定性表示未知或不熟悉的指示对象。这个概念可以在冠词与名词的共同出现中理解:
定冠词——the
不定冠词——a/an
时态
这个语法范畴与动词有关,可以定义为动作时间的语言指示。时态建立了一种关系,因为它表示事件相对于说话时刻的时间。大体上,它有以下三种类型:
现在时——表示动作在现在时刻发生。例如,Ram works hard。
过去时——表示动作在现在时刻之前发生。例如,it rained。
将来时——表示动作在现在时刻之后发生。例如,it will rain。
体
这个语法范畴可以定义为对事件的看法。它可以是以下类型:
完成体——在这个体中,观点被视为完整和完整的。例如,英语中的简单过去时,如yesterday I met my friend,在体上是完成体,因为它将事件视为完整和完整的。
未完成体——在这个体中,观点被视为正在进行和不完整的。例如,英语中的现在分词时态,如I am working on this problem,在体上是未完成体,因为它将事件视为不完整和正在进行的。
语气
这个语法范畴有点难以定义,但可以简单地说它是说话者对所谈论内容的态度的指示。它也是动词的语法特征。它不同于语法时态和语法体。语气的例子有陈述语气、疑问语气、祈使语气、命令语气、虚拟语气、可能语气、愿望语气、动名词和分词。
一致
它也称为一致性。当一个词根据它所相关的其他词而发生变化时,就会发生这种情况。换句话说,它涉及使一些语法范畴的值在不同的词或词类之间一致。以下是基于其他语法范畴的一致:
基于人称的一致——它是主语和动词之间的一致。例如,我们总是使用“I am”和“He is”,但从不用“He am”和“I is”。
基于数量的语态一致 − 此协议存在于主语和谓语之间。在这种情况下,第一人称单数、第二人称复数等有特定的动词形式。例如,第一人称单数:我确实是的,第二人称复数:我们确实是,第三人称单数:男孩唱歌,第三人称复数:男孩们唱歌。
基于性别的语态一致 − 在英语中,代词和先行词在性别上要一致。例如,他到达了他的目的地。船到达了它的目的地。
基于格的语态一致 − 这种一致在英语中不是一个显著的特征。例如,谁先来——他还是他的妹妹?
口语语法
书面英语和口语英语语法有很多共同点,但同时它们在许多方面也有所不同。以下特征区分了口语和书面英语语法:
不流畅和修复
这个显著的特征使口语和书面英语语法彼此不同。它分别被称为不流畅现象,统称为修复现象。不流畅包括使用以下内容:
填充词 − 有时在句子中间,我们会使用一些填充词。它们被称为填充词或填充停顿。此类词的例子包括“uh”和“um”。
修复成分和修复 − 句子中间重复的词段称为修复成分。在同一个词段中,改变的词称为修复。请考虑以下示例以理解这一点:
ABC航空公司提供任何单程航班吗?uh,5000卢比的单程票价?
在上句中,“单程航班”是修复成分,“单程票价”是修复。
重新开始
在填充停顿之后,会发生重新开始。例如,在上句中,当说话者开始询问单程航班然后停顿,用填充停顿纠正自己,然后重新开始询问单程票价时,就会发生重新开始。
词语片段
有时我们会用更小的词语片段来说话。例如,wwha-what is the time? 这里的词语w-wha就是词语片段。