Skip to main content
QUICK REVIEW

[논문 리뷰] You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish

Ronald Cumbal, Birger Moëll|arXiv (Cornell University)|2024. 05. 22.
Speech and dialogue systems인용 수 7
한 줄 요약

이 논문은 세 가지 ASR 서비스(Google, Microsoft, Huggingface)를 사용하여 읽기 음성과 자발적 말하기에서 L1와 L2 스웨덴 화자의 ASR 성능을 비교하고 오류 유형 및 발화 길이 효과를 분석한다.

ABSTRACT

The performance of Automatic Speech Recognition (ASR) systems has constantly increased in state-of-the-art development. However, performance tends to decrease considerably in more challenging conditions (e.g., background noise, multiple speaker social conversations) and with more atypical speakers (e.g., children, non-native speakers or people with speech disorders), which signifies that general improvements do not necessarily transfer to applications that rely on ASR, e.g., educational software for younger students or language learners. In this study, we focus on the gap in performance between recognition results for native and non-native, read and spontaneous, Swedish utterances transcribed by different ASR services. We compare the recognition results using Word Error Rate and analyze the linguistic factors that may generate the observed transcription errors.

연구 동기 및 목표

  • 읽기 및 자발적 말하기에 대해 원어민(L1)과 비원어민(L2) 스웨덴 음성 간의 단어 오류율(WER) 격차를 평가한다.
  • 비 이상 조건에서 스웨덴어에 대해 상용 ASR 시스템들을 평가한다.
  • 일반적인 기록 오류와 오인 인식에 기여하는 언어학적 요인을 식별한다.
  • 발화 길이가 L1 대 L2 스웨덴어 음성의 ASR 성능에 미치는 영향을 조사한다.
  • ASR를 활용한 교육 및 언어 학습 응용에 대한 시사점을 논의한다.

제안 방법

  • 원어민과 비원어민 화자를 포함한 두 개의 스웨덴어 L2 데이터셋(Ville 읽기 문장; CORALL 사회 대화)을 사용한다.
  • 세 가지 ASR 시스템을 테스트한다: Google Cloud Speech-to-Text, Microsoft Azure Speech-to-Text, 및 Huggingface wav2vec2 기반 모델.
  • WER(단어 오류율)과 NFR(인식 실패 샘플 수)로 성능을 측정한다.
  • 발화 길이(짧음, 중간, 길음)로 결과를 세분화하여 길이 효과를 분석한다.
  • 자주 잘 인식되지 않는 단어 및 범주(생략 vs 치환)를 식별하기 위해 전사 오류를 분석한다.
  • 원어민 vs 비원어민 차이의 유의성을 평가하기 위해 Welch의 t-검정을 수행한다.

실험 결과

연구 질문

  • RQ1읽기 및 자발적 스웨덴어 말하기에서 ASR 성능의 원어민 대비 비원어민 차이가 지속되는가?
  • RQ2다른 ASR 서비스가 L1 대 L2 스웨덴어를 처리하는 데 비교적 어떻게 다른가?
  • RQ3비원어민 스웨덴어 말하기의 일반적인 오류 패턴은 무엇이며, 원어민 음성과 다른가?
  • RQ4발화 길이가 L1 및 L2 음성의 ASR 성능에 어떤 영향을 미치는가?
  • RQ5ASR의 취약점이 교육적 또는 언어 학습 응용에 어떤 시사점을 갖는가?

주요 결과

데이터 세트발화자 유형Google WERMicrosoft WERHuggingface WER
Ville (Read sentences)원어민0.1620.1110.522
Ville (Read sentences)비원어민0.3250.4100.593
CORALL (Social conv.)원어민0.4120.3560.641
CORALL (Social conv.)비원어민0.4210.5070.663
  • 원어민은 일반적으로 비원어민보다 낮은 WER를 달성하며, 격차는 읽기 문장에서 더 뚜렷하고 일부 ASR에서는 자발적 말하기에서는 그렇지 않은 경우가 있다.
  • Microsoft Azure는 자발적 말하기에서 원어민 vs 비원어민 차이가 유의하게 나타났다(원어민 N: 0.36 대 비원어민 NN: 0.51, p<0.05).
  • Google Cloud와 Huggingface는 연구에 사용된 데이터셋에서 자발적 말하기에 대해 원어민 vs 비원어민 차이가 통계적으로 유의하지 않았다.
  • 읽기 문장에서 더 긴 발화는 일반적으로 원어민의 WER가 더 좋았으나, 비원어민의 경우 효과가 혼재했고 ASR에 따라 달랐다.
  • 자발적 말하기는 종종 많은 비인식 짧은 발화(NFR)를 초래했으며 특히 Google과 Microsoft에서 인터랙티브한 교육 맥락에서 사용성을 영향을 주었다.
  • 일반적인 잘못인식에는 짧은 기능단어들(예: ja, och, du, jag)과 학습자 특유의 용어(예: förstår, repetera) 등이 포함되며, 언어 학습과 관련된 신호어가 오류에 취약함을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.