ASR:自动语音识别
简介
程序将口语转换为书面语的能力称为语音识别,也称为自动语音识别 (ASR)、计算机语音识别或语音到文本。想想 Siri、Ok Google 或其他语音听写软件。这是一项我们许多人每天都在使用的熟悉技术。此外,它正在发展帮助特定人群的机会,例如在日常生活中或教育中遇到障碍的人。
ASR 转录技术的现代迭代现在包括 NLP(自然语言处理)。它们记录个人之间的实际对话,并使用人工智能对其进行分析。
ASR 如何工作?
当某个人或一群人说话时,ASR 软件会接收音频。它听到的单词随后由设备记录在波形文件中。处理波形文件以去除环境噪声并调整音量。然后,将此过滤后的波形的序列分解并进行检查。自动语音识别软件分析这些序列,然后使用统计可能性来识别单个单词,然后继续处理整个短语。一些技术供应商使用经过培训的人工转录员来审查和更正 ASR 工作期间发现的任何错误。
自动语音识别的用途
如今,各种行业正在使用不同的语音技术应用,这正在帮助企业和消费者节省时间,甚至挽救生命。例如
汽车
语音识别器使汽车收音机中的语音激活导航系统和搜索功能成为可能,从而提高了驾驶安全性。
法律
现在存在法庭记者短缺的问题,并且在法律程序中记录下所说的一切至关重要。ASR 技术提供的关键解决方案包括数字转录和可扩展性。
医疗保健
医生和护士使用听写应用程序来记录和注册患者诊断和治疗记录。
媒体
根据 FCC 和其他法规,媒体制作组织使用 ASR 为所有创建的内容提供实时字幕和媒体转录。
自动语音识别系统的分类
定向对话和自然语言对话是自动语音识别软件变体的两大主要类别。
在定向对话中,这通常用于经典的语音 IVR,呼叫者会回答一系列是或否的问题。
例如,定向对话系统可能会提出以下问题:
“您想让我们将您的密码发送给您吗?”声明“是”或“否”。
您对哪些活动感兴趣?您可以询问“账单问题”、“支付账单”、“获取余额”、“获取账单副本”或“获取余额”。
参与仅限于几个重点查询和答案,有时还提供可能的答案列表。这种类型的技术在客户反应有限的情况下发挥作用。客户对 IVR 的主要抱怨之一是“机器人”无法处理其复杂问题。
自然语言允许呼叫者自由交谈,就像与真人交谈一样,以缓解这些常见担忧。自然语言处理中使用人工智能来解释客户所说的一切。为了继续对话,IVR 不需要听到“是”这个词。可以从“是的”、“当然”、“好的”和“嗯哼”等回复中推断出相同的意思。
因此,自然语言系统可能会提出任何问题,例如 -
“您今天想做些什么活动?”
“我们如何为您提供支持?”
“请简要描述您致电的原因”。
呼叫者可以用完整的短语回答,IVR 将识别最重要的细节并生成有用的回复。
自动语音识别面临的挑战
尽管语音和语音技术领域的增长速度预计将提高三倍,但这种指数级发展可能会因系统在嘈杂的环境中、在竞争信号中难以运行以及无法可靠地识别说话者而放缓。
我们提供了解决语音到文本转换过程中需要解决的问题的列表。
对不起,我没有理解您所说的。您可以再说一遍吗?
自 20 世纪 50 年代语音识别概念首次出现以来,技术已经取得了长足进步。长期以来,准确性一直是语音识别用户的反复出现的问题。
结论
程序将口语转换为书面语的能力称为语音识别。ASR 的主要目的是信息目的和呼叫转发。ASR 转录技术现在包括 NLP(自然语言处理)。它们记录个人之间的实际对话,并使用人工智能对其进行分析。自然语言系统可能会提出任何问题,例如“今天我如何帮助您?”。呼叫者可以用完整的短语回答,IVR 将识别最重要的细节并生成有用的回复。
常见问题
Q1. ASR 系统如何处理说话者声音和口音的变化?
答:ASR 系统旨在独立于说话者。为了实现这一点,系统必须能够考虑各种口音和方言。实现此目的的常用方法是使用来自不同说话者的各种不同语音样本训练系统。
Q2. 如何提高语音识别的准确性?
答:提高语音识别准确性的最佳策略是增加训练数据的可用性。系统拥有的数据越多,它就越能更好地理解语音模式并提高其准确性。此外,确保数据干净且质量良好至关重要。
Q3. 语音识别系统为什么需要专用设备,例如耳机或麦克风?
答:一些语音识别软件可能可以使用标准的计算机麦克风正常工作,但其他软件可能需要专用设备(例如耳机)才能正常工作。这是因为耳机可以为语音识别引擎提供更清晰、更可靠的信号,这可以帮助它更准确地转录正在说的话。