语音感知:含义与应用


通过口语进行交流的能力是将人类与其他动物区分开来的基本特征。人类语言的复杂性和它能够表达的思想、情感和观念的广度,使我们有别于其他利用声音进行交流和交易的动物。

语音感知的含义

研究语言和交流的认知和神经基础的科学家通常在各自的领域独立工作。听觉视角研究如何从语音声音的声学模型中提取语音信息,听觉系统如何表示语音声音,以及听觉系统如何表示语音声音。从心理语言学的角度来看,研究的重点是从声学-语音序列中提取意义表示,以及它们与句子和话语语境中高级语言解释发展的关系。然而,这两个语音研究群体之间交流甚少。此外,近年来对大脑听力和语言基础的研究有了显著增长。猴听觉系统神经解剖学和神经生物学的最新进展为绘制支撑灵长类动物大脑中听觉刺激解释的结构和回路的基本架构提供了基础。

视听语音分析中的核心问题

来自多个领域的学者,包括语言学、实验心理学、电气工程、人工智能以及听力和语音科学,都为语音感知的研究做出了贡献。尽管方法论和总体目标有所不同,但研究人员普遍同意该领域面临的基本挑战。本文概述了该学科中最紧迫的理论问题。

分割问题和声学-语音不变性的缺失

最常见的例子是,当对信息的语言分析未能提供一组可以映射到听觉单元的语音片段或音素时。语音环境、说话速度、说话者和句法环境都会影响特定语言片段在语音波形中的声学表现,反之亦然。由于底层语音环境的影响,连贯语音中各个语音变化的声学特性比孤立产生的单词表现出更大的差异。

大脑中的声音表示

说话的先决条件 - 语音信号的外周听觉处理及其更丰富的表示在解决声学-语音不变性问题中的潜在作用。

感知的语音单元

如果要将听觉皮层丰富的基于感觉的神经信息输出用于意识和随后的决策,则必须将其记录到更抽象和稳定的形式中。语音是否可以在单个“自然”或基础层面进行编码,一直是多项研究的主题。

语音距离的音频建模

语音信号的听觉建模主要有两个研究方向。动物身上大量重要的生理学研究集中在外周听觉系统对基本语音信号的编码。通过这种方式,研究了听觉神经对基本语音信号(如静止状态下的元音和 CV 短语中的停顿音)的反应。通过创建基于改进的语音初级感觉处理听觉描述的新识别算法,来提高前端性能。虽然该领域取得了令人鼓舞的进展,但仍需要对负责整合初级感觉输入的中枢听觉系统进行更深入的研究。

声谱图和声学-语音数据库的阅读

尽管声谱图可用于识别语音,并且可以在语音信号中检测到可靠的语言片段指示,但仍需解决在连续流利的语音中区分听觉片段的挑战。尽管如此,这些发现对未来的语音识别研究已经产生了重要的意义。首先,这些结果反驳了一个普遍但错误的假设,即声谱图,尤其是新颖和不熟悉的语音的声谱图,无法被理解或评估。

词汇检索和词汇可用性

实验心理学家长期以来一直对研究词汇知识和词汇分配的性质感兴趣。然而,这些问题尚未被从事语音研究主流的研究人员经常探讨。造成这种粗略处理语言的原因有很多。首先,我们关于词汇识别的绝大多数知识来自阅读研究,这些研究严重依赖于视觉模式。

理解说话者连接单词的能力

在过去的 30 年里,研究人员几乎完全专注于大脑如何处理单个语音。这些研究大多集中在如何单独处理各个音素,刺激材料由单个无意义的音节组成。虽然这种方法的范围相当有限,但当人们考虑到感知和理解口语,尤其是感知流畅的连贯语音的难度时,它就变得更加清晰了。

语言和语音直觉

人类的直觉语音感知和语言理解似乎以闪电般的速度发生,几乎是实时发生的。支持这种在线活动的大部分感知处理和计算过程都是在无意识中执行的,因此无法被意识所察觉。此外,即使信号严重损坏或部分缺失,人类也能从语音信号中解码语言内容。由于关于流利连贯语音感知的问题总是涉及听者的认知系统,并考虑到语言知识的不同领域如何相互作用以支持感知和理解,因此它们与围绕相同音素和语音特征感知的问题有很大不同。需要对声谱图解释进行更多基础研究,并投入更多精力创建大型数据集,这些数据集可用于检验关于语音变化的多种原因的新理论。

结论

语音研究领域的许多人最近经历了重大的范式转变。与过去几年相比,研究人员将时间和精力集中在更广泛的理论问题上。这些问题包括在更自然的环境中研究更多语言感觉输入,在这种环境中,听者必须利用各种专业知识来为感觉输入分配语言视角。研究重点发生了重大转变,集中在语境线索对语音信号的声学-语音实现的不同贡献上。即使仿射问题的完整解决方案尚不可获得,但专家们普遍对很快能实现这一目标充满希望。只要有足够的时间和对语音代码复杂性的更多基础研究,就可以实现这一目标。

更新于: 2023年1月3日

164 次查看

开启你的 职业生涯

通过完成课程获得认证

立即开始
广告