[论文解读] Quantifying Bias in Automatic Speech Recognition
本文系统性地量化荷兰语最先进的 ASR 系统在性别、年龄、地区口音和非母语口音方面的偏见,使用 WER 和音位级分析来识别偏见发生的位置,并提出缓解策略。
Automatic speech recognition (ASR) systems promise to deliver objective interpretation of human speech. Practice and recent evidence suggests that the state-of-the-art (SotA) ASRs struggle with the large variation in speech due to e.g., gender, age, speech impairment, race, and accents. Many factors can cause the bias of an ASR system. Our overarching goal is to uncover bias in ASR systems to work towards proactive bias mitigation in ASR. This paper is a first step towards this goal and systematically quantifies the bias of a Dutch SotA ASR system against gender, age, regional accents and non-native accents. Word error rates are compared, and an in-depth phoneme-level error analysis is conducted to understand where bias is occurring. We primarily focus on bias due to articulation differences in the dataset. Based on our findings, we suggest bias mitigation strategies for ASR development.
研究动机与目标
- 激发发现 ASR 系统偏见的需求,并推动走向主动缓解。
- 在性别、年龄段、区域口音和非母语口音上量化标准荷兰语 DNN-HMM ASR 的偏见。
- 比较 word error rate(WER)并进行音位级错误分析,以识别偏见源。
- 基于实证发现提供数据驱动的偏见缓解建议。
提出的方法
- 在 Kaldi 中使用带 LF-MMI 训练的混合 DNN-HMM 荷兰语 ASR(TDNN-BLSTM)。
- 在荷兰 CGN 语料库上训练,并在 Jasmin-CGN 扩展上进行评估,以覆盖性别、年龄、区域口音和非母语口音。
- 分别比较读稿语音和人机交互(HMI)语音的 WER。
- 通过荷兰词汇表将逐字稿转换为音位序列,并使用 Levenshtein 对齐计算音位错误率(PER)。
- 进行音位级分析,以识别在各组中最易被错误识别的音位。
实验结果
研究问题
- RQ1荷兰语中,ASR 性能(WER)在性别、年龄组、区域口音和非母语口音之间有何差异?
- RQ2说话风格(读稿 vs. HMI)是否影响 ASR 性能偏见的程度?
- RQ3对于不同说话人群,哪些音位最容易被误识别,这对发音相关的偏见意味着什么?
- RQ4基于观察结果,可以推断出哪些缓解策略以减少荷兰语 ASR 的偏见?
主要发现
- 女性语音在各组和各种风格中比男性语音更易被识别。
- 本地荷兰语语音比非本地语音识别得更准确,非本地组显示出最大的性能差距。
- 儿童,尤其是年龄较大者(65+)表现出更高的 WER,在某些地区老年人表现出最高的变异性和最差的性能。
- 读稿语音通常比 HMI 语音具有更低的 WER,native 的差距约为 13.7 个百分点,non-native 为 5.5 点。
- 区域口音很重要:荷兰本地组中,弗拉芒荷语(FL)表现最差,区域 S 在 HMI 语音中通常显示出最强的偏见;年长的荷兰语使用者显示出更强的区域效应。
- 音位级分析显示元音 /œy/, /Y/, /y/, /ø:/ 以及语言特有的实现作为跨组常见的误识来源;本地和非本地以及地区差异驱动着不同的错误模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。