QUICK REVIEW

[논문 리뷰] Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition

Ayman Mansour|arXiv (Cornell University)|2026. 01. 11.

Speech Recognition and Synthesis인용 수 0

한 줄 요약

본 논문은 Sudanese 방언 ASR에 대해 Whisper 모델의 제로샷, 미세조정, 자기학습 및 TTS 증강을 평가하고, 하이브리드 자기학습 + TTS 접근법을 제안하여 일반화 능력이 가장 좋음을 보인다(holdout에서 WER 51.6%).

ABSTRACT

Although many Automatic Speech Recognition (ASR) systems have been developed for Modern Standard Arabic (MSA) and Dialectal Arabic (DA), few studies have focused on dialect-specific implementations, particularly for low-resource Arabic dialects such as Sudanese. This paper presents a comprehensive study of data augmentation techniques for fine-tuning OpenAI Whisper models and establishes the first benchmark for the Sudanese dialect. Two augmentation strategies are investigated: (1) self-training with pseudo-labels generated from unlabeled speech, and (2) TTS-based augmentation using synthetic speech from the Klaam TTS system. The best-performing model, Whisper-Medium fine-tuned with combined self-training and TTS augmentation (28.4 hours), achieves a Word Error Rate (WER) of 57.1% on the evaluation set and 51.6% on an out-of-domain holdout set substantially outperforming zero-shot multilingual Whisper (78.8% WER) and MSA-specialized Arabic models (73.8-123% WER). All experiments used low-cost resources (Kaggle free tier and Lightning.ai trial), demonstrating that strategic data augmentation can overcome resource limitations for low-resource dialects and provide a practical roadmap for developing ASR systems for low-resource Arabic dialects and other marginalized language varieties. The models, evaluation benchmarks, and reproducible training pipelines are publicly released to facilitate future research on low-resource Arabic ASR.

연구 동기 및 목표

저자원 환경에서 Sudanese 방언에 대한 Whisper 기반 ASR 모델의 효과를 평가한다.
Sudanese 방언 ASR 성능 향상을 위한 데이터 증강 전략(자기학습 및 TTS)을 평가한다.
Sudanese 방언 ASR 벤치마크를 구축하고 재현 가능한 훈련 파이프라인을 제공한다.
제로샷, 전체 미세조정, 및 증강 접근법을 비교하여 데이터 효율성과 일반화를 이해한다.

제안 방법

Sudanese 방언과 Arabic 데이터를 결합한 세트에서 Whisper Small/Medium/Large V2를 미세조정한다.
OOOK-Eval 및 도메인 외 holdout 세트에서 제로샷 Whisper 변형을 평가한다.
라벨이 없는 Sudanese 데이터에서 의사레이블을 생성하고 재학습하여 자기훈련을 구현한다.
Lisan-Sudanese TTS 데이터를 사용한 TTS 기반 증강을 도입한다.
최종 미세조정을 위해 자기훈련과 TTS 증강 및 실제 표준 데이터의 조합을 사용한다.

실험 결과

연구 질문

RQ1제로샷 대 미세조정 설정에서 Whisper 모델이 Sudanese 방언 ASR에서 얼마나 잘 작동하는가?
RQ2자기훈련과 TTS 증강이 독립적으로 Sudanese ASR 성능을 향상시키는가, 그리고 두 가지를 결합하는 것이 이로운가?
RQ3도메인 외 Sudanese 음성에 대해 가장 좋은 일반화 성능을 내는 모델 크기 및 데이터 구성은 무엇인가?
RQ4반지도 학습에서 의사레이블 선택의 신뢰도 임계값의 트레이드오프는 무엇인가?
RQ5저자원 방언 ASR 시스템을 배포하는 데 있어 한계 및 실용적 고려사항은 무엇인가?

주요 결과

방법	학습 데이터	시간	WER/CER	WER/CER 홀드아웃
Zero-shot OpenAI W-Small	Multilingual	680k	109/73	118/87.8
Zero-shot OpenAI W-Medium	Multilingual	680k	84.3/50.3	96.8/65.5
Zero-shot OpenAI W-Large-V2	Multilingual	680k	78.8/47.7	88.5/62.6
ARBML W-Small-Ar	MGB2	1.2k	83.5/43	149/109
ARBML W-Small-CV-Ar	CV 11	~100	123/164	191/229
ARBML W-Medium-Ar	MGB2	1.2k	73.8/36.5	140/99.6
ARBML W-Large-v2-Ar	MGB2	1.2k	75.5/37.9	146/109
SDN W-Small	MSA+SDN	7.25	67.7/27.7	63.4/32.6
SDN W-Medium	MSA+SDN	7.25	64.1/26.7	57.5/30.9
SDN W-Large-v2	MSA+SDN	7.25	62.8/27.1	59.7/34.8
SDN-Teacher W-Small	SDN-clean	3.93	67.3/26.3	61.8/32.2
SDN W-Small	SDN-clean+Pseudo(con=0.7)	15.2	64.6/25.5	60.9/31.3
SDN W-Small	SDN-clean+Pseudo(con=0.9)	8.73	71/30.5	63.5/33.1
SDN W-Medium	SDN-clean+Pseudo(con=0.7)	23.76	57.1/20.6	54.1/28.2
SDN W-Medium	SDN-clean+Pseudo(con=0.9)	17.35	57.2/20.9	52.1/26.6
SDN W-Medium	Pseudo(con=0.7)	19.83	61/23.7	53.3/27.2
SDN W-Medium	Pseudo(con=0.9)	13.42	58.2/20.9	56.5/29.6
SDN W-Small	SDN-clean+Pseudo(con=0.7)+TTS	19.81	65.5/26.2	64.4/33.6
SDN W-Small	SDN-clean+Pseudo(con=0.9)+TTS	13.34	70.3/28.1	64.5/35
SDN W-Small	Pseudo(con=0.7)+TTS	15.88	70.5/28.7	65.1/33
SDN W-Small	Pseudo(con=0.9)+TTS	9.41	65.6/25.9	63.9/32.3
SDN W-Medium	SDN-clean+Pseudo(con=0.7)+TTS	28.37	57.9/21.3	51.6 / 26.5
SDN W-Medium	SDN-clean+Pseudo(con=0.9)+TTS	21.96	63.3/25.5	53.2/28

제로샷 Whisper Large-V2가 OpenAI 모델 중 제로샷 WER이 가장 우수하다(OOOK-Eval에서 78.8% WER, 47.7% CER).
SDN Whisper Large-V2의 전체 미세조정은 62.8% WER 및 27.1% CER를, Medium은 강한 holdout 일반화를 보인다(57.5% WER, 30.9% CER).
Medium 교사와 의사레이블(con=0.7) 및 금본표본 데이터로 수행한 자기훈련은 OOOK-Eval에서 57.1% WER를 달성(가장 좋은 단일 모델 결과).
자기훈련과 TTS 증강 및 금본표본 데이터를 결합하면 전체 일반화가 가장 좋으며, holdout 세트에서 SDN-W-Medium의 WER 51.6%, CER 26.5%를 달성했다(총 28.37 시간).
제로샷 기준 대비 최고의 상대 개선은 약 45%(WER 96.8%에서 51.6%로).
자기훈련의 큰 이득은 더 큰 용량 모델에서 더 두드러지며; 라벨링 데이터가 제한될 때 데이터 효율성이 강조된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.