Skip to main content
QUICK REVIEW

[论文解读] Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition

Ayman Mansour|arXiv (Cornell University)|Jan 11, 2026
Speech Recognition and Synthesis被引用 0
一句话总结

本文评估了对苏丹方言ASR在 Whisper 模型上的零-shot、微调、自训练和 TTS 增强,并提出一种混合自训练 + TTS 的方法,在 holdout 数据上实现最优泛化(WER 51.6%)。

ABSTRACT

Although many Automatic Speech Recognition (ASR) systems have been developed for Modern Standard Arabic (MSA) and Dialectal Arabic (DA), few studies have focused on dialect-specific implementations, particularly for low-resource Arabic dialects such as Sudanese. This paper presents a comprehensive study of data augmentation techniques for fine-tuning OpenAI Whisper models and establishes the first benchmark for the Sudanese dialect. Two augmentation strategies are investigated: (1) self-training with pseudo-labels generated from unlabeled speech, and (2) TTS-based augmentation using synthetic speech from the Klaam TTS system. The best-performing model, Whisper-Medium fine-tuned with combined self-training and TTS augmentation (28.4 hours), achieves a Word Error Rate (WER) of 57.1% on the evaluation set and 51.6% on an out-of-domain holdout set substantially outperforming zero-shot multilingual Whisper (78.8% WER) and MSA-specialized Arabic models (73.8-123% WER). All experiments used low-cost resources (Kaggle free tier and Lightning.ai trial), demonstrating that strategic data augmentation can overcome resource limitations for low-resource dialects and provide a practical roadmap for developing ASR systems for low-resource Arabic dialects and other marginalized language varieties. The models, evaluation benchmarks, and reproducible training pipelines are publicly released to facilitate future research on low-resource Arabic ASR.

研究动机与目标

  • 评估 Whisper 基于的 ASR 模型在低资源条件下对苏丹方言的有效性。
  • 评估数据增强策略(自训练与 TTS)对提升苏丹方言 ASR 性能的效果。
  • 建立苏丹方言 ASR 基准并提供可复现的训练流程。
  • 比较零-shot、全量微调和数据增强方法,理解数据效率与泛化能力。

提出的方法

  • 在联合的苏丹方言和阿拉伯语数据上,对 Whisper Small/Medium/Large V2 进行微调。
  • 在 OOOK-Eval 和一个域外 holdout 集上评估零-shot 的 Whisper 变体。
  • 通过对未标注的苏丹数据生成伪标签并重新训练,实施自训练。
  • 结合使用 Lisan-Sudanese TTS 数据进行 TTS 增强。
  • 将自训练与 TTS 增强及金标准数据结合用于最终微调。
Figure 2: Language Detection Failures
Figure 2: Language Detection Failures

实验结果

研究问题

  • RQ1Whisper 模型在苏丹方言 ASR 的零-shot 与微调设置下表现如何?
  • RQ2自训练和 TTS 增强是否能独立提升苏丹方言 ASR 性能,二者结合是否更有利?
  • RQ3哪种模型大小与数据配置能在域外的苏丹语音上获得最佳泛化?
  • RQ4伪标签选择的置信度阈值在半监督学习中的权衡是什么?
  • RQ5在部署低资源方言 ASR 系统时有哪些局限性与实际考虑?

主要发现

MethodTrain DataHrsWER/CERWER/CER H-O
Zero-shot OpenAI W-SmallMultilingual680k109/73118/87.8
Zero-shot OpenAI W-MediumMultilingual680k84.3/50.396.8/65.5
Zero-shot OpenAI W-Large-V2Multilingual680k78.8/47.788.5/62.6
ARBML W-Small-ArMGB21.2k83.5/43149/109
ARBML W-Small-CV-ArCV 11~100123/164191/229
ARBML W-Medium-ArMGB21.2k73.8/36.5140/99.6
ARBML W-Large-v2-ArMGB21.2k75.5/37.9146/109
SDN W-SmallMSA+SDN7.2567.7/27.763.4/32.6
SDN W-MediumMSA+SDN7.2564.1/26.757.5/30.9
SDN W-Large-v2MSA+SDN7.2562.8/27.159.7/34.8
SDN-Teacher W-SmallSDN-clean3.9367.3/26.361.8/32.2
SDN W-SmallSDN-clean+Pseudo(con=0.7)15.264.6/25.560.9/31.3
SDN W-SmallSDN-clean+Pseudo(con=0.9)8.7371/30.563.5/33.1
SDN W-MediumSDN-clean+Pseudo(con=0.7)23.7657.1/20.654.1/28.2
SDN W-MediumSDN-clean+Pseudo(con=0.9)17.3557.2/20.952.1/26.6
SDN W-MediumPseudo(con=0.7)19.8361/23.753.3/27.2
SDN W-MediumPseudo(con=0.9)13.4258.2/20.956.5/29.6
SDN W-SmallSDN-clean+Pseudo(con=0.7)+TTS19.8165.5/26.264.4/33.6
SDN W-SmallSDN-clean+Pseudo(con=0.9)+TTS13.3470.3/28.164.5/35
SDN W-SmallPseudo(con=0.7)+TTS15.8870.5/28.765.1/33
SDN W-SmallPseudo(con=0.9)+TTS9.4165.6/25.963.9/32.3
SDN W-MediumSDN-clean+Pseudo(con=0.7)+TTS28.3757.9/21.351.6 / 26.5
SDN W-MediumSDN-clean+Pseudo(con=0.9)+TTS[Gap]63.3/25.553.2/28
  • 零-shot 的 Whisper Large-V2 在 OpenAI 模型中实现了最佳零-shot WER(在 OOOK-Eval 上 78.8% WER,47.7% CER)。
  • SDN Whisper Large-V2 的全量微调在 OOOK-Eval 上达到 62.8% WER 和 27.1% CER;Medium 在 holdout 上表现出强泛化(57.5% WER,30.9% CER)。
  • 以 Medium 教师模型和伪标签(con=0.7)配合金标准数据进行自训练,在 OOOK-Eval 上达到 57.1% WER(单模型最佳结果)。
  • 将自训练与 TTS 增强以及金标准数据结合,获得最佳整体泛化,在 holdout 集上 SDN-W-Medium 达到 51.6% WER、26.5% CER(总时长 28.37 小时)。
  • 相对于零-shot 基线的相对改进约为 45%(WER 从 96.8% 提升到 51.6%)。
  • 在容量较高的模型上,自训练带来更显著的增益;在标注数据有限时,数据效率更为突出。
Figure 3: Error Type Distribution
Figure 3: Error Type Distribution

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。