QUICK REVIEW

[논문 리뷰] Quantifying Bias in Automatic Speech Recognition

Siyuan Feng, Olya Kudina|arXiv (Cornell University)|2021. 03. 28.

Speech Recognition and Synthesis참고 문헌 24인용 수 53

한 줄 요약

이 논문은 WER 및 음소 수준 분석을 사용하여 남성/여성, 연령, 지역 악센트 및 비모국어 악센트에서 네덜란드 최첨단 ASR 시스템의 편향을 체계적으로 정량화하고 편향이 발생하는 위치를 식별하고 완화 전략을 제시합니다.

ABSTRACT

Automatic speech recognition (ASR) systems promise to deliver objective interpretation of human speech. Practice and recent evidence suggests that the state-of-the-art (SotA) ASRs struggle with the large variation in speech due to e.g., gender, age, speech impairment, race, and accents. Many factors can cause the bias of an ASR system. Our overarching goal is to uncover bias in ASR systems to work towards proactive bias mitigation in ASR. This paper is a first step towards this goal and systematically quantifies the bias of a Dutch SotA ASR system against gender, age, regional accents and non-native accents. Word error rates are compared, and an in-depth phoneme-level error analysis is conducted to understand where bias is occurring. We primarily focus on bias due to articulation differences in the dataset. Based on our findings, we suggest bias mitigation strategies for ASR development.

연구 동기 및 목표

ASR 시스템의 편향을 발견해야 할 필요성을 제기하고 적극적 완화로 나아가야 함
성별, 연령대, 지역 악센트, 비모국어 악센트를 아우르는 표준 네덜란드 DNN-HMM ASR의 편향을 정량화한다
WER를 비교하고 음소 수준의 오류 분석을 수행하여 편향의 원인을 식별한다
경험적 발견에 기반한 데이터 기반 편향 완화 제안을 제공한다

제안 방법

Kaldi에서 LF-MMI 학습을 사용하는 하이브리드 DNN-HMM 네덜란드어 ASR(TDNN-BLSTM)을 사용한다
네덜란드 CGN 코퍼스에서 학습하고 Jasmin-CGN 확장판에서 평가하여 성별, 연령, 지역 및 비모국어 악센트를 다룬다
읽기 음성와 인간-기계 상호작용(HMI) 음성에 대해 각각 WER를 비교한다
네덜란드어 어휘를 이용하여 기록을 음소 시퀀스로 변환하고 Levenshtein 정렬을 사용해 음소 오류율(PER)을 계산한다
그룹별로 가장 잘못 인식된 음소를 식별하기 위한 음소 수준 분석을 수행한다

실험 결과

연구 질문

RQ1네덜란드어에서 성별, 연령대, 지역 악센트 및 비모국어 악센트에 따라 ASR 성능(WER)이 어떻게 달라지는가?
RQ2발화 스타일(읽기 vs. HMI)이 ASR 성능의 편향 크기에 영향을 미치는가?
RQ3다른 화자 그룹에서 가장 자주 잘못 인식되는 음소는 무엇이며, 이는 발음 관련 편향에 대해 무엇을 시사하는가?
RQ4관찰된 결과를 바탕으로 네덜란드어 ASR의 편향을 줄이기 위한 완화 전략은 무엇으로 추론될 수 있는가?

주요 결과

여성 화자의 발화는 그룹과 스타일에 걸쳐 남성 화자보다 더 잘 인식된다
네이티브 네덜란드어 발화가 비네이티브 발화보다 더 정확하게 인식되며, 비네이티브 그룹이 가장 큰 성능 차이를 보인다
어린이와 특히 노인(65세 이상)은 더 높은 WER를 보이며, 노인은 일부 지역에서 가장 높은 변동성과 최악의 성능을 보인다
읽기 음성은 일반적으로 HMI 음성보다 낮은 WER를 보이며, 차이는 원어민의 경우 평균 약 13.7pp, 비원어민의 경우 약 5.5pp이다
지역 악센트가 중요하다: Flemish Dutch (FL)가 원어민 그룹 중 최악의 성능을 보이며, 지역 S가 HMI 음성에서 가장 강한 편향을 보이는 경우가 많고, 연령이 높은 네덜란드 화자는 지역 효과가 더 강하다
음소 수준 분석은 모음 /œy/, /Y/, /y/, /ø:/ 및 언어별 실현이 그룹 간에 자주 오인 인식의 원인으로 나타나며; 원어민 대 비원어민 및 지역 차이가 서로 다른 오류 패턴을 만들어 낸다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.