QUICK REVIEW

[论文解读] Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition

Ayman Mansour|arXiv (Cornell University)|Jan 11, 2026

Speech Recognition and Synthesis被引用 0

一句话总结

本文评估了对苏丹方言ASR在 Whisper 模型上的零-shot、微调、自训练和 TTS 增强，并提出一种混合自训练 + TTS 的方法，在 holdout 数据上实现最优泛化（WER 51.6%）。

ABSTRACT

Although many Automatic Speech Recognition (ASR) systems have been developed for Modern Standard Arabic (MSA) and Dialectal Arabic (DA), few studies have focused on dialect-specific implementations, particularly for low-resource Arabic dialects such as Sudanese. This paper presents a comprehensive study of data augmentation techniques for fine-tuning OpenAI Whisper models and establishes the first benchmark for the Sudanese dialect. Two augmentation strategies are investigated: (1) self-training with pseudo-labels generated from unlabeled speech, and (2) TTS-based augmentation using synthetic speech from the Klaam TTS system. The best-performing model, Whisper-Medium fine-tuned with combined self-training and TTS augmentation (28.4 hours), achieves a Word Error Rate (WER) of 57.1% on the evaluation set and 51.6% on an out-of-domain holdout set substantially outperforming zero-shot multilingual Whisper (78.8% WER) and MSA-specialized Arabic models (73.8-123% WER). All experiments used low-cost resources (Kaggle free tier and Lightning.ai trial), demonstrating that strategic data augmentation can overcome resource limitations for low-resource dialects and provide a practical roadmap for developing ASR systems for low-resource Arabic dialects and other marginalized language varieties. The models, evaluation benchmarks, and reproducible training pipelines are publicly released to facilitate future research on low-resource Arabic ASR.

研究动机与目标

评估 Whisper 基于的 ASR 模型在低资源条件下对苏丹方言的有效性。
评估数据增强策略（自训练与 TTS）对提升苏丹方言 ASR 性能的效果。
建立苏丹方言 ASR 基准并提供可复现的训练流程。
比较零-shot、全量微调和数据增强方法，理解数据效率与泛化能力。

提出的方法

在联合的苏丹方言和阿拉伯语数据上，对 Whisper Small/Medium/Large V2 进行微调。
在 OOOK-Eval 和一个域外 holdout 集上评估零-shot 的 Whisper 变体。
通过对未标注的苏丹数据生成伪标签并重新训练，实施自训练。
结合使用 Lisan-Sudanese TTS 数据进行 TTS 增强。
将自训练与 TTS 增强及金标准数据结合用于最终微调。

实验结果

研究问题

RQ1Whisper 模型在苏丹方言 ASR 的零-shot 与微调设置下表现如何？
RQ2自训练和 TTS 增强是否能独立提升苏丹方言 ASR 性能，二者结合是否更有利？
RQ3哪种模型大小与数据配置能在域外的苏丹语音上获得最佳泛化？
RQ4伪标签选择的置信度阈值在半监督学习中的权衡是什么？
RQ5在部署低资源方言 ASR 系统时有哪些局限性与实际考虑？

主要发现

Method	Train Data	Hrs	WER/CER	WER/CER H-O
Zero-shot OpenAI W-Small	Multilingual	680k	109/73	118/87.8
Zero-shot OpenAI W-Medium	Multilingual	680k	84.3/50.3	96.8/65.5
Zero-shot OpenAI W-Large-V2	Multilingual	680k	78.8/47.7	88.5/62.6
ARBML W-Small-Ar	MGB2	1.2k	83.5/43	149/109
ARBML W-Small-CV-Ar	CV 11	~100	123/164	191/229
ARBML W-Medium-Ar	MGB2	1.2k	73.8/36.5	140/99.6
ARBML W-Large-v2-Ar	MGB2	1.2k	75.5/37.9	146/109
SDN W-Small	MSA+SDN	7.25	67.7/27.7	63.4/32.6
SDN W-Medium	MSA+SDN	7.25	64.1/26.7	57.5/30.9
SDN W-Large-v2	MSA+SDN	7.25	62.8/27.1	59.7/34.8
SDN-Teacher W-Small	SDN-clean	3.93	67.3/26.3	61.8/32.2
SDN W-Small	SDN-clean+Pseudo(con=0.7)	15.2	64.6/25.5	60.9/31.3
SDN W-Small	SDN-clean+Pseudo(con=0.9)	8.73	71/30.5	63.5/33.1
SDN W-Medium	SDN-clean+Pseudo(con=0.7)	23.76	57.1/20.6	54.1/28.2
SDN W-Medium	SDN-clean+Pseudo(con=0.9)	17.35	57.2/20.9	52.1/26.6
SDN W-Medium	Pseudo(con=0.7)	19.83	61/23.7	53.3/27.2
SDN W-Medium	Pseudo(con=0.9)	13.42	58.2/20.9	56.5/29.6
SDN W-Small	SDN-clean+Pseudo(con=0.7)+TTS	19.81	65.5/26.2	64.4/33.6
SDN W-Small	SDN-clean+Pseudo(con=0.9)+TTS	13.34	70.3/28.1	64.5/35
SDN W-Small	Pseudo(con=0.7)+TTS	15.88	70.5/28.7	65.1/33
SDN W-Small	Pseudo(con=0.9)+TTS	9.41	65.6/25.9	63.9/32.3
SDN W-Medium	SDN-clean+Pseudo(con=0.7)+TTS	28.37	57.9/21.3	51.6 / 26.5
SDN W-Medium	SDN-clean+Pseudo(con=0.9)+TTS	[Gap]	63.3/25.5	53.2/28

零-shot 的 Whisper Large-V2 在 OpenAI 模型中实现了最佳零-shot WER（在 OOOK-Eval 上 78.8% WER，47.7% CER）。
SDN Whisper Large-V2 的全量微调在 OOOK-Eval 上达到 62.8% WER 和 27.1% CER；Medium 在 holdout 上表现出强泛化（57.5% WER，30.9% CER）。
以 Medium 教师模型和伪标签（con=0.7）配合金标准数据进行自训练，在 OOOK-Eval 上达到 57.1% WER（单模型最佳结果）。
将自训练与 TTS 增强以及金标准数据结合，获得最佳整体泛化，在 holdout 集上 SDN-W-Medium 达到 51.6% WER、26.5% CER（总时长 28.37 小时）。
相对于零-shot 基线的相对改进约为 45%（WER 从 96.8% 提升到 51.6%）。
在容量较高的模型上，自训练带来更显著的增益；在标注数据有限时，数据效率更为突出。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。