Skip to main content
QUICK REVIEW

[논문 리뷰] Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition

Ayman Mansour|arXiv (Cornell University)|2026. 01. 11.
Speech Recognition and Synthesis인용 수 0
한 줄 요약

본 논문은 Sudanese 방언 ASR에 대해 Whisper 모델의 제로샷, 미세조정, 자기학습 및 TTS 증강을 평가하고, 하이브리드 자기학습 + TTS 접근법을 제안하여 일반화 능력이 가장 좋음을 보인다(holdout에서 WER 51.6%).

ABSTRACT

Although many Automatic Speech Recognition (ASR) systems have been developed for Modern Standard Arabic (MSA) and Dialectal Arabic (DA), few studies have focused on dialect-specific implementations, particularly for low-resource Arabic dialects such as Sudanese. This paper presents a comprehensive study of data augmentation techniques for fine-tuning OpenAI Whisper models and establishes the first benchmark for the Sudanese dialect. Two augmentation strategies are investigated: (1) self-training with pseudo-labels generated from unlabeled speech, and (2) TTS-based augmentation using synthetic speech from the Klaam TTS system. The best-performing model, Whisper-Medium fine-tuned with combined self-training and TTS augmentation (28.4 hours), achieves a Word Error Rate (WER) of 57.1% on the evaluation set and 51.6% on an out-of-domain holdout set substantially outperforming zero-shot multilingual Whisper (78.8% WER) and MSA-specialized Arabic models (73.8-123% WER). All experiments used low-cost resources (Kaggle free tier and Lightning.ai trial), demonstrating that strategic data augmentation can overcome resource limitations for low-resource dialects and provide a practical roadmap for developing ASR systems for low-resource Arabic dialects and other marginalized language varieties. The models, evaluation benchmarks, and reproducible training pipelines are publicly released to facilitate future research on low-resource Arabic ASR.

연구 동기 및 목표

  • 저자원 환경에서 Sudanese 방언에 대한 Whisper 기반 ASR 모델의 효과를 평가한다.
  • Sudanese 방언 ASR 성능 향상을 위한 데이터 증강 전략(자기학습 및 TTS)을 평가한다.
  • Sudanese 방언 ASR 벤치마크를 구축하고 재현 가능한 훈련 파이프라인을 제공한다.
  • 제로샷, 전체 미세조정, 및 증강 접근법을 비교하여 데이터 효율성과 일반화를 이해한다.

제안 방법

  • Sudanese 방언과 Arabic 데이터를 결합한 세트에서 Whisper Small/Medium/Large V2를 미세조정한다.
  • OOOK-Eval 및 도메인 외 holdout 세트에서 제로샷 Whisper 변형을 평가한다.
  • 라벨이 없는 Sudanese 데이터에서 의사레이블을 생성하고 재학습하여 자기훈련을 구현한다.
  • Lisan-Sudanese TTS 데이터를 사용한 TTS 기반 증강을 도입한다.
  • 최종 미세조정을 위해 자기훈련과 TTS 증강 및 실제 표준 데이터의 조합을 사용한다.
Figure 2: Language Detection Failures
Figure 2: Language Detection Failures

실험 결과

연구 질문

  • RQ1제로샷 대 미세조정 설정에서 Whisper 모델이 Sudanese 방언 ASR에서 얼마나 잘 작동하는가?
  • RQ2자기훈련과 TTS 증강이 독립적으로 Sudanese ASR 성능을 향상시키는가, 그리고 두 가지를 결합하는 것이 이로운가?
  • RQ3도메인 외 Sudanese 음성에 대해 가장 좋은 일반화 성능을 내는 모델 크기 및 데이터 구성은 무엇인가?
  • RQ4반지도 학습에서 의사레이블 선택의 신뢰도 임계값의 트레이드오프는 무엇인가?
  • RQ5저자원 방언 ASR 시스템을 배포하는 데 있어 한계 및 실용적 고려사항은 무엇인가?

주요 결과

방법학습 데이터시간WER/CERWER/CER 홀드아웃
Zero-shot OpenAI W-SmallMultilingual680k109/73118/87.8
Zero-shot OpenAI W-MediumMultilingual680k84.3/50.396.8/65.5
Zero-shot OpenAI W-Large-V2Multilingual680k78.8/47.788.5/62.6
ARBML W-Small-ArMGB21.2k83.5/43149/109
ARBML W-Small-CV-ArCV 11~100123/164191/229
ARBML W-Medium-ArMGB21.2k73.8/36.5140/99.6
ARBML W-Large-v2-ArMGB21.2k75.5/37.9146/109
SDN W-SmallMSA+SDN7.2567.7/27.763.4/32.6
SDN W-MediumMSA+SDN7.2564.1/26.757.5/30.9
SDN W-Large-v2MSA+SDN7.2562.8/27.159.7/34.8
SDN-Teacher W-SmallSDN-clean3.9367.3/26.361.8/32.2
SDN W-SmallSDN-clean+Pseudo(con=0.7)15.264.6/25.560.9/31.3
SDN W-SmallSDN-clean+Pseudo(con=0.9)8.7371/30.563.5/33.1
SDN W-MediumSDN-clean+Pseudo(con=0.7)23.7657.1/20.654.1/28.2
SDN W-MediumSDN-clean+Pseudo(con=0.9)17.3557.2/20.952.1/26.6
SDN W-MediumPseudo(con=0.7)19.8361/23.753.3/27.2
SDN W-MediumPseudo(con=0.9)13.4258.2/20.956.5/29.6
SDN W-SmallSDN-clean+Pseudo(con=0.7)+TTS19.8165.5/26.264.4/33.6
SDN W-SmallSDN-clean+Pseudo(con=0.9)+TTS13.3470.3/28.164.5/35
SDN W-SmallPseudo(con=0.7)+TTS15.8870.5/28.765.1/33
SDN W-SmallPseudo(con=0.9)+TTS9.4165.6/25.963.9/32.3
SDN W-MediumSDN-clean+Pseudo(con=0.7)+TTS28.3757.9/21.351.6 / 26.5
SDN W-MediumSDN-clean+Pseudo(con=0.9)+TTS21.9663.3/25.553.2/28
  • 제로샷 Whisper Large-V2가 OpenAI 모델 중 제로샷 WER이 가장 우수하다(OOOK-Eval에서 78.8% WER, 47.7% CER).
  • SDN Whisper Large-V2의 전체 미세조정은 62.8% WER 및 27.1% CER를, Medium은 강한 holdout 일반화를 보인다(57.5% WER, 30.9% CER).
  • Medium 교사와 의사레이블(con=0.7) 및 금본표본 데이터로 수행한 자기훈련은 OOOK-Eval에서 57.1% WER를 달성(가장 좋은 단일 모델 결과).
  • 자기훈련과 TTS 증강 및 금본표본 데이터를 결합하면 전체 일반화가 가장 좋으며, holdout 세트에서 SDN-W-Medium의 WER 51.6%, CER 26.5%를 달성했다(총 28.37 시간).
  • 제로샷 기준 대비 최고의 상대 개선은 약 45%(WER 96.8%에서 51.6%로).
  • 자기훈련의 큰 이득은 더 큰 용량 모델에서 더 두드러지며; 라벨링 데이터가 제한될 때 데이터 효율성이 강조된다.
Figure 3: Error Type Distribution
Figure 3: Error Type Distribution

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.