[논문 리뷰] Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition
본 논문은 Sudanese 방언 ASR에 대해 Whisper 모델의 제로샷, 미세조정, 자기학습 및 TTS 증강을 평가하고, 하이브리드 자기학습 + TTS 접근법을 제안하여 일반화 능력이 가장 좋음을 보인다(holdout에서 WER 51.6%).
Although many Automatic Speech Recognition (ASR) systems have been developed for Modern Standard Arabic (MSA) and Dialectal Arabic (DA), few studies have focused on dialect-specific implementations, particularly for low-resource Arabic dialects such as Sudanese. This paper presents a comprehensive study of data augmentation techniques for fine-tuning OpenAI Whisper models and establishes the first benchmark for the Sudanese dialect. Two augmentation strategies are investigated: (1) self-training with pseudo-labels generated from unlabeled speech, and (2) TTS-based augmentation using synthetic speech from the Klaam TTS system. The best-performing model, Whisper-Medium fine-tuned with combined self-training and TTS augmentation (28.4 hours), achieves a Word Error Rate (WER) of 57.1% on the evaluation set and 51.6% on an out-of-domain holdout set substantially outperforming zero-shot multilingual Whisper (78.8% WER) and MSA-specialized Arabic models (73.8-123% WER). All experiments used low-cost resources (Kaggle free tier and Lightning.ai trial), demonstrating that strategic data augmentation can overcome resource limitations for low-resource dialects and provide a practical roadmap for developing ASR systems for low-resource Arabic dialects and other marginalized language varieties. The models, evaluation benchmarks, and reproducible training pipelines are publicly released to facilitate future research on low-resource Arabic ASR.
연구 동기 및 목표
- 저자원 환경에서 Sudanese 방언에 대한 Whisper 기반 ASR 모델의 효과를 평가한다.
- Sudanese 방언 ASR 성능 향상을 위한 데이터 증강 전략(자기학습 및 TTS)을 평가한다.
- Sudanese 방언 ASR 벤치마크를 구축하고 재현 가능한 훈련 파이프라인을 제공한다.
- 제로샷, 전체 미세조정, 및 증강 접근법을 비교하여 데이터 효율성과 일반화를 이해한다.
제안 방법
- Sudanese 방언과 Arabic 데이터를 결합한 세트에서 Whisper Small/Medium/Large V2를 미세조정한다.
- OOOK-Eval 및 도메인 외 holdout 세트에서 제로샷 Whisper 변형을 평가한다.
- 라벨이 없는 Sudanese 데이터에서 의사레이블을 생성하고 재학습하여 자기훈련을 구현한다.
- Lisan-Sudanese TTS 데이터를 사용한 TTS 기반 증강을 도입한다.
- 최종 미세조정을 위해 자기훈련과 TTS 증강 및 실제 표준 데이터의 조합을 사용한다.

실험 결과
연구 질문
- RQ1제로샷 대 미세조정 설정에서 Whisper 모델이 Sudanese 방언 ASR에서 얼마나 잘 작동하는가?
- RQ2자기훈련과 TTS 증강이 독립적으로 Sudanese ASR 성능을 향상시키는가, 그리고 두 가지를 결합하는 것이 이로운가?
- RQ3도메인 외 Sudanese 음성에 대해 가장 좋은 일반화 성능을 내는 모델 크기 및 데이터 구성은 무엇인가?
- RQ4반지도 학습에서 의사레이블 선택의 신뢰도 임계값의 트레이드오프는 무엇인가?
- RQ5저자원 방언 ASR 시스템을 배포하는 데 있어 한계 및 실용적 고려사항은 무엇인가?
주요 결과
| 방법 | 학습 데이터 | 시간 | WER/CER | WER/CER 홀드아웃 |
|---|---|---|---|---|
| Zero-shot OpenAI W-Small | Multilingual | 680k | 109/73 | 118/87.8 |
| Zero-shot OpenAI W-Medium | Multilingual | 680k | 84.3/50.3 | 96.8/65.5 |
| Zero-shot OpenAI W-Large-V2 | Multilingual | 680k | 78.8/47.7 | 88.5/62.6 |
| ARBML W-Small-Ar | MGB2 | 1.2k | 83.5/43 | 149/109 |
| ARBML W-Small-CV-Ar | CV 11 | ~100 | 123/164 | 191/229 |
| ARBML W-Medium-Ar | MGB2 | 1.2k | 73.8/36.5 | 140/99.6 |
| ARBML W-Large-v2-Ar | MGB2 | 1.2k | 75.5/37.9 | 146/109 |
| SDN W-Small | MSA+SDN | 7.25 | 67.7/27.7 | 63.4/32.6 |
| SDN W-Medium | MSA+SDN | 7.25 | 64.1/26.7 | 57.5/30.9 |
| SDN W-Large-v2 | MSA+SDN | 7.25 | 62.8/27.1 | 59.7/34.8 |
| SDN-Teacher W-Small | SDN-clean | 3.93 | 67.3/26.3 | 61.8/32.2 |
| SDN W-Small | SDN-clean+Pseudo(con=0.7) | 15.2 | 64.6/25.5 | 60.9/31.3 |
| SDN W-Small | SDN-clean+Pseudo(con=0.9) | 8.73 | 71/30.5 | 63.5/33.1 |
| SDN W-Medium | SDN-clean+Pseudo(con=0.7) | 23.76 | 57.1/20.6 | 54.1/28.2 |
| SDN W-Medium | SDN-clean+Pseudo(con=0.9) | 17.35 | 57.2/20.9 | 52.1/26.6 |
| SDN W-Medium | Pseudo(con=0.7) | 19.83 | 61/23.7 | 53.3/27.2 |
| SDN W-Medium | Pseudo(con=0.9) | 13.42 | 58.2/20.9 | 56.5/29.6 |
| SDN W-Small | SDN-clean+Pseudo(con=0.7)+TTS | 19.81 | 65.5/26.2 | 64.4/33.6 |
| SDN W-Small | SDN-clean+Pseudo(con=0.9)+TTS | 13.34 | 70.3/28.1 | 64.5/35 |
| SDN W-Small | Pseudo(con=0.7)+TTS | 15.88 | 70.5/28.7 | 65.1/33 |
| SDN W-Small | Pseudo(con=0.9)+TTS | 9.41 | 65.6/25.9 | 63.9/32.3 |
| SDN W-Medium | SDN-clean+Pseudo(con=0.7)+TTS | 28.37 | 57.9/21.3 | 51.6 / 26.5 |
| SDN W-Medium | SDN-clean+Pseudo(con=0.9)+TTS | 21.96 | 63.3/25.5 | 53.2/28 |
- 제로샷 Whisper Large-V2가 OpenAI 모델 중 제로샷 WER이 가장 우수하다(OOOK-Eval에서 78.8% WER, 47.7% CER).
- SDN Whisper Large-V2의 전체 미세조정은 62.8% WER 및 27.1% CER를, Medium은 강한 holdout 일반화를 보인다(57.5% WER, 30.9% CER).
- Medium 교사와 의사레이블(con=0.7) 및 금본표본 데이터로 수행한 자기훈련은 OOOK-Eval에서 57.1% WER를 달성(가장 좋은 단일 모델 결과).
- 자기훈련과 TTS 증강 및 금본표본 데이터를 결합하면 전체 일반화가 가장 좋으며, holdout 세트에서 SDN-W-Medium의 WER 51.6%, CER 26.5%를 달성했다(총 28.37 시간).
- 제로샷 기준 대비 최고의 상대 개선은 약 45%(WER 96.8%에서 51.6%로).
- 자기훈련의 큰 이득은 더 큰 용량 모델에서 더 두드러지며; 라벨링 데이터가 제한될 때 데이터 효율성이 강조된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.