语音识别:含义及应用
在语音识别中,感知者的任务是利用感官数据来判断他们所知的数百个单词中哪个最符合上下文。经过40年的研究,人们普遍认为我们通过一种参与和竞争的过程来识别单词,其中更常用的词语会优先考虑。现代语音识别模型都使用了这个过程,但具体细节可能有所不同。
语音识别的解释
具有正常听力的听者可以快速且看似毫不费力地适应语音信号和周围听觉环境的各种变化。强大的语音识别依赖于早期感觉处理和将语言存储到词汇表征中。然而,仅仅依靠可听性和感觉处理并不能完全解释语音识别的强大特性,尤其是在听觉环境受损的情况下。研究人员提供了该主题的背景信息,涵盖了一些关键的理论问题,然后研究了一些现代语音识别模型。最后,我们重点介绍了一些令人兴奋的新途径和需要克服的障碍,例如耳聋儿童使用人工耳蜗、双语者和老年人理解带有口音的语音的能力。
最近开发的语音识别模型
当语音识别系统能够可靠地选择其词汇表征与输入表征最相似的单词时,其功能最佳。尽管这看起来很明显,但一个仅仅将感知输入与每个词汇项进行比较并选择最匹配项的识别系统将是执行孤立单词识别而不会受到高级上下文约束干扰的最佳方法。
追踪模型
Trace 模型是一个基于交互激活的局部完全卷积语音识别模型,具有三层节点,分别代表特征表示、音素表示和单词表示。单词识别的局部主义版本将音位、音素和单词视为离散单元。Trace 中的处理单元通过兴奋性和抑制性通路相互连接,分别增加和减少单元激活以响应传入的刺激和系统活动。
Parsyn 模型
Parsyn 模型是一个区域主义连接主义架构,具有三层链接单元:输入音位、模式音位和单词。在同一层内,单元之间的连接彼此对抗。但是,连接响应者需要在设计层面上回答单元,这在两个方向上都是有帮助的。
在分布式环境中分析队列的方法
在 OCM(分布式队列模型)中,与单词相关的激活分布在许多低级处理器中。基于语音的特征输入被投影到基本的语义和语音元素上。由于 OCM 的分布式性质,在 OCM 中找不到任何中间或亚词汇表示元素。此外,与局部模型依赖于侧向抑制方法相比,词汇竞争被描述为基于自下而上输入的多种一致词汇元素的融合。
激活-竞争模型
从长远来看,新一批的激活-竞争系统差异相当小。根据所有说法,多个激活和基于形式的词汇成分之间的竞争定义了语音识别。基本原理已经确立,尽管细节可能有所不同。分段、词汇、词汇反馈类型、上下文的重要性等等,只是模型试图解释的几种现象。鉴于现有模型的基本相似性,这些问题最终决定哪个模型应该胜出的可能性似乎不大。
指称变异和处理
语音处理受声学刺激呈现的细微差异的显著影响。Pisani (1992)是第一批研究与说话人变异(一种索引变异)相关的处理成本的研究人员,Peters 检查了在存在背景噪声的情况下单说话人和多说话人传输的清晰度差异。他发现,一对一的对话总是比小组讨论更容易理解。
音位变化中的音位变体
在解释发音的个体差异时,当前语音识别模型是不充分的。关于如何在语音识别中表示和处理索引多样性的科学研究为我们的论点提供了支持。关于音位变异的新研究指出了现有模型的差距。音位变异指的是属于同一语音类别的声音站点的有效被动和声学差异,最近对音位变异的研究为现有建模方法的可能缺点提供了见解。
边缘激活语音对应物
这一发现任何现有的计算机模型语音或单词识别都无法捕捉。例如,发现颤音触发其音素对应物这一发现表明,至少 Trace 和 Shortlist 应该包含一个音位表示层。音位支持是 PARSYN 独有的。另一方面,PARSYN 缺乏音素表示可能会使其难以解释如此激活的原因。一些中介访问理论也可以解释核心表示被参与的观察结果。然而,这些理论需要解释认知的时间过程,特别是为什么当答案快速时表示的影响会消失。最后,虽然 DCM 可以解释底层模型失活的情况,但它可能需要帮助来模拟处理受阻的情况。再次强调,当前模型无法承受差异的压力。
结论
差异带来了根本性的复杂性,需要重新思考我们模型的表示系统。新的信息表明,同时存在作为包含具体和一般内容的形式。此外,我们需要想象一个系统,其中特定和一般的处理遵循可预测的时间过程,并代表处理系统的底层设计。最后但并非最不重要的是,我们开发的下一代模型需要考虑人类感知的可塑性。成年人的大脑似乎能够根据外部输入进行精细和频繁的调整。能够公正对待主题的识别模型需要包括可以考虑适应感知能力的控制条件,这无疑将对表示系统的结构和设计产生深远的影响。