[论文解读] Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition
本文评估了对苏丹方言ASR在 Whisper 模型上的零-shot、微调、自训练和 TTS 增强,并提出一种混合自训练 + TTS 的方法,在 holdout 数据上实现最优泛化(WER 51.6%)。
Although many Automatic Speech Recognition (ASR) systems have been developed for Modern Standard Arabic (MSA) and Dialectal Arabic (DA), few studies have focused on dialect-specific implementations, particularly for low-resource Arabic dialects such as Sudanese. This paper presents a comprehensive study of data augmentation techniques for fine-tuning OpenAI Whisper models and establishes the first benchmark for the Sudanese dialect. Two augmentation strategies are investigated: (1) self-training with pseudo-labels generated from unlabeled speech, and (2) TTS-based augmentation using synthetic speech from the Klaam TTS system. The best-performing model, Whisper-Medium fine-tuned with combined self-training and TTS augmentation (28.4 hours), achieves a Word Error Rate (WER) of 57.1% on the evaluation set and 51.6% on an out-of-domain holdout set substantially outperforming zero-shot multilingual Whisper (78.8% WER) and MSA-specialized Arabic models (73.8-123% WER). All experiments used low-cost resources (Kaggle free tier and Lightning.ai trial), demonstrating that strategic data augmentation can overcome resource limitations for low-resource dialects and provide a practical roadmap for developing ASR systems for low-resource Arabic dialects and other marginalized language varieties. The models, evaluation benchmarks, and reproducible training pipelines are publicly released to facilitate future research on low-resource Arabic ASR.
研究动机与目标
- 评估 Whisper 基于的 ASR 模型在低资源条件下对苏丹方言的有效性。
- 评估数据增强策略(自训练与 TTS)对提升苏丹方言 ASR 性能的效果。
- 建立苏丹方言 ASR 基准并提供可复现的训练流程。
- 比较零-shot、全量微调和数据增强方法,理解数据效率与泛化能力。
提出的方法
- 在联合的苏丹方言和阿拉伯语数据上,对 Whisper Small/Medium/Large V2 进行微调。
- 在 OOOK-Eval 和一个域外 holdout 集上评估零-shot 的 Whisper 变体。
- 通过对未标注的苏丹数据生成伪标签并重新训练,实施自训练。
- 结合使用 Lisan-Sudanese TTS 数据进行 TTS 增强。
- 将自训练与 TTS 增强及金标准数据结合用于最终微调。

实验结果
研究问题
- RQ1Whisper 模型在苏丹方言 ASR 的零-shot 与微调设置下表现如何?
- RQ2自训练和 TTS 增强是否能独立提升苏丹方言 ASR 性能,二者结合是否更有利?
- RQ3哪种模型大小与数据配置能在域外的苏丹语音上获得最佳泛化?
- RQ4伪标签选择的置信度阈值在半监督学习中的权衡是什么?
- RQ5在部署低资源方言 ASR 系统时有哪些局限性与实际考虑?
主要发现
| Method | Train Data | Hrs | WER/CER | WER/CER H-O |
|---|---|---|---|---|
| Zero-shot OpenAI W-Small | Multilingual | 680k | 109/73 | 118/87.8 |
| Zero-shot OpenAI W-Medium | Multilingual | 680k | 84.3/50.3 | 96.8/65.5 |
| Zero-shot OpenAI W-Large-V2 | Multilingual | 680k | 78.8/47.7 | 88.5/62.6 |
| ARBML W-Small-Ar | MGB2 | 1.2k | 83.5/43 | 149/109 |
| ARBML W-Small-CV-Ar | CV 11 | ~100 | 123/164 | 191/229 |
| ARBML W-Medium-Ar | MGB2 | 1.2k | 73.8/36.5 | 140/99.6 |
| ARBML W-Large-v2-Ar | MGB2 | 1.2k | 75.5/37.9 | 146/109 |
| SDN W-Small | MSA+SDN | 7.25 | 67.7/27.7 | 63.4/32.6 |
| SDN W-Medium | MSA+SDN | 7.25 | 64.1/26.7 | 57.5/30.9 |
| SDN W-Large-v2 | MSA+SDN | 7.25 | 62.8/27.1 | 59.7/34.8 |
| SDN-Teacher W-Small | SDN-clean | 3.93 | 67.3/26.3 | 61.8/32.2 |
| SDN W-Small | SDN-clean+Pseudo(con=0.7) | 15.2 | 64.6/25.5 | 60.9/31.3 |
| SDN W-Small | SDN-clean+Pseudo(con=0.9) | 8.73 | 71/30.5 | 63.5/33.1 |
| SDN W-Medium | SDN-clean+Pseudo(con=0.7) | 23.76 | 57.1/20.6 | 54.1/28.2 |
| SDN W-Medium | SDN-clean+Pseudo(con=0.9) | 17.35 | 57.2/20.9 | 52.1/26.6 |
| SDN W-Medium | Pseudo(con=0.7) | 19.83 | 61/23.7 | 53.3/27.2 |
| SDN W-Medium | Pseudo(con=0.9) | 13.42 | 58.2/20.9 | 56.5/29.6 |
| SDN W-Small | SDN-clean+Pseudo(con=0.7)+TTS | 19.81 | 65.5/26.2 | 64.4/33.6 |
| SDN W-Small | SDN-clean+Pseudo(con=0.9)+TTS | 13.34 | 70.3/28.1 | 64.5/35 |
| SDN W-Small | Pseudo(con=0.7)+TTS | 15.88 | 70.5/28.7 | 65.1/33 |
| SDN W-Small | Pseudo(con=0.9)+TTS | 9.41 | 65.6/25.9 | 63.9/32.3 |
| SDN W-Medium | SDN-clean+Pseudo(con=0.7)+TTS | 28.37 | 57.9/21.3 | 51.6 / 26.5 |
| SDN W-Medium | SDN-clean+Pseudo(con=0.9)+TTS | [Gap] | 63.3/25.5 | 53.2/28 |
- 零-shot 的 Whisper Large-V2 在 OpenAI 模型中实现了最佳零-shot WER(在 OOOK-Eval 上 78.8% WER,47.7% CER)。
- SDN Whisper Large-V2 的全量微调在 OOOK-Eval 上达到 62.8% WER 和 27.1% CER;Medium 在 holdout 上表现出强泛化(57.5% WER,30.9% CER)。
- 以 Medium 教师模型和伪标签(con=0.7)配合金标准数据进行自训练,在 OOOK-Eval 上达到 57.1% WER(单模型最佳结果)。
- 将自训练与 TTS 增强以及金标准数据结合,获得最佳整体泛化,在 holdout 集上 SDN-W-Medium 达到 51.6% WER、26.5% CER(总时长 28.37 小时)。
- 相对于零-shot 基线的相对改进约为 45%(WER 从 96.8% 提升到 51.6%)。
- 在容量较高的模型上,自训练带来更显著的增益;在标注数据有限时,数据效率更为突出。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。