You dont have javascript enabled! Please enable it!

人工智能语音识别如何表现出对不同口音的偏见

Have you ever tried to activate a voice assistant only to have it fail to understand you? It turns out that人工智能和语音识别系统在理解某些口音时比其他口音更困难。

拥有特定口音的人可能会发现自动客服电话很具挑战性。这种经历在最好的情况下可能令人沮丧,而在最坏的情况下则可能使整个群体被排除在某项服务或技术功能之外。这种技术的失败可能对个人以及产品的整体客户体验产生负面影响。

根据Guide2Fluency对3,000名美国人(根据年龄、性别和地理位置进行调查)的研究显示,美国五大被AI误解的区域口音包括:

  • 南方口音。
  • 纽约市口音。
  • 新泽西口音。
  • 德克萨斯口音。
  • 波士顿口音。

这些地区不仅在某些单词的发音上有所不同,每个地区还有稍微不同的方言,可能会被AI系统所误解。

为什么AI需要理解方言和口音

口音被定义为在一种语言中发音的特定方式,而方言则是一组更广泛的语言概念,包括语法、发音、词汇和语言使用方式的差异。口音和方言并不是人们可以轻易改变的,它们通常与一个人的文化和社区紧密相连。

拥有能够理解多种口音和方言的语音识别技术的企业,可能会看到客户体验的改善、更广泛的用户基础以及品牌形象和忠诚度的提升。然而,要求用户改变他们的说话方式以便系统理解他们,这种做法不应被视为一个选项。

语音识别系统无法理解不同口音和方言可能会影响产品或服务的用户基础的很大一部分,并可能导致令人沮丧的体验。自动客服平台、法庭转录或辅助工具等服务都可能受到负面影响。而在AI方面,解决这一问题比你想象的要简单。

语音识别软件如何工作

要理解这个问题的存在及其解决方法,首先需要了解语音识别是如何工作的。

语音识别软件通过麦克风输入捕获音频,然后将其数字化为计算机可以处理的格式。音频随后被分解并使用多种算法进行分析。分解后的片段与语言模型和语音模式数据库进行比较,以识别最可能使用的单词或短语。

人工智能语音识别如何表现出对不同口音的偏见

语音识别依赖于用于识别口语语言的和AI算法。

所使用的算法通常包括机器学习和自然语言处理。它们还可能包括神经网络、自然语言理解(NLU)、隐马尔可夫模型或n-grams——具体取决于模型。

这些模型通过大量数据集“学习”,模型的准确性和质量取决于训练数据的准确性和质量。训练数据通常包括音频录音和转录。数据集中的每个音频片段都应与准确的转录配对,以确保对所说内容的精确表示。

尽管这些基于AI和机器学习的算法有助于提高语音识别的准确性,但这也是理解口音和方言问题出现的地方。

AI如何理解口音?

语音识别系统只能识别它们经过训练能理解的口音和方言。因此,理解口音和方言的问题在于模型在训练过程中是否接触过某种口音。

例如,Guide2Fluency的调查显示,参与者使用的语音识别系统缺乏足够多样化的训练数据集来准确理解这些口音。

多样化的训练数据集是指不局限于特定人群的训练数据集。训练数据集应包括具有多种口音、方言、性别、年龄和说话风格的音频。这为模型提供了学习不同说话模式、口音或方言的机会,并形成不同单词和声音之间的明确联系。

多样化的自然语言理解(NLU)模型也有助于理解不同的方言,因为NLU可以帮助理解区域术语和句子结构。经过充分训练,语音识别系统甚至可以用于理解多种语言。

用多样化口音训练语音模型的挑战

用更多样化的口音和方言训练语音模型时常见的挑战包括:

  • 数据收集成本。与训练AI或机器学习模型相关的所有成本——如数据获取、计算资源和存储——在训练能够理解不同口音和方言的模型时都会增加。
  • 计算复杂性。对单一方言或口音训练机器学习模型需要大量数据。对额外的区域和非母语口音进行训练需要更多的计算能力、处理和存储。
  • 市场和成本考虑。科技公司——尤其是预算较少的小公司——可能还需考虑平衡开发语音识别模型的成本与市场需求。
  • 偏见。模型可能是基于某一地区的主导口音和方言创建的,开发者无意中忽略了不同的口音或方言。

不过,有一些方法可以绕过这些挑战。例如,迁移学习是一种方法,可以让组织从已经在特定方言或口音上预训练的机器学习模型开始,然后在更多区域口音和方言上训练该模型,从而减少数据训练时间。

另一种方法是使用更先进的AI模型,这些模型通过持续学习或反馈循环主动进行自我训练。这些模型可以通过时间的推移来学习口音。

人工智能语音识别如何表现出对不同口音的偏见

AI系统中的偏见可以在多个AI建模阶段中被识别和消除。

口音和方言在AI偏见中的作用

AI和机器学习偏见是一种现象,发生在AI或机器学习模型产生系统性偏见的结果。这通常是由于训练模型所用的数据不足、算法设计或模型部署的上下文所致。

这种偏见在语音识别系统中的表现之一是它们未能理解不同的口音和方言。这很可能是由于缺乏足够的训练数据,模型未接触到足够多样化的训练数据集——无论是由于资金或资源成本、数据收集过程,还是开发者的缺乏考虑。

这导致了显著的性能差距,语音识别系统可能对某些人表现完美,而对其他具有不同地区或非母语口音和方言的人则表现不佳,甚至根本无法使用。这种用户体验的差异可能导致沮丧、可及性降低,甚至对那些与AI训练的语音不同的人造成排斥。

一项名为《自动语音识别中的种族差异》的研究于2020年发布,发现亚马逊、苹果、谷歌、IBM和微软开发的语音识别系统在黑人说话者中的错误率高于白人说话者。这一问题被归结为这些系统未能捕捉到不同的语音发音和口音。

这突显了拥有多样化数据集以训练语音识别系统的重要性,以及拥有多元团队参与这些系统开发的必要性。

Alexander Gillis是WhatIs的技术写作人员,拥有Fitchburg State University的专业写作学士学位。

© 版权声明

外贸建站推广

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...