Skip to main content
QUICK REVIEW

[论文解读] RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Alexandra Diaconu, Mădălina Vînaga|arXiv (Cornell University)|Mar 2, 2026
Speech Recognition and Synthesis被引用 0
一句话总结

RO-N3WS 引入了126小时的罗马尼亚语 ASR 基准测试,包含域内新闻与域外语音,以研究领域鲁棒性及对 Whisper 与 Wav2Vec 2.0 的微调收益,并比较合成监督与自然监督分析。

ABSTRACT

We introduce RO-N3WS, a benchmark Romanian speech dataset designed to improve generalization in automatic speech recognition (ASR), particularly in low-resource and out-of-distribution (OOD) conditions. RO-N3WS comprises over 126 hours of transcribed audio collected from broadcast news, literary audiobooks, film dialogue, children's stories, and conversational podcast speech. This diversity enables robust training and fine-tuning across stylistically distinct domains. We evaluate several state-of-the-art ASR systems (Whisper, Wav2Vec 2.0) in both zero-shot and fine-tuned settings, and conduct controlled comparisons using synthetic data generated with expressive TTS models. Our results show that even limited fine-tuning on real speech from RO-N3WS yields substantial WER improvements over zero-shot baselines. We will release all models, scripts, and data splits to support reproducible research in multilingual ASR, domain adaptation, and lightweight deployment.

研究动机与目标

  • 提供多样化的罗马尼亚语 ASR 数据集,结合广播新闻与具表达性的域外内容,以研究低资源条件下的泛化。
  • 在 RO-N3WS 上基准化最先进模型(Whisper、Wav2Vec 2.0)的零-shot 与微调,让其在多域测试集上工作。
  • 比较自然监督与合成(TTS)监督在模型适应与鲁棒性方面的差异。
  • 分析语言学与韵律特征(命名实体、表达性)以理解域迁移。
  • 发布数据、模型与脚本,支持多语言 ASR 与领域自适应的可重复研究。

提出的方法

  • 构建 RO-N3WS,其中域内(新闻)与域外(OOD)子集总计 126 小时罗马尼亚语语音。
  • 对文件进行手工转写与标注,恢复重音符号、扩展数字、保留实体;每个文件两名标注者。
  • 在 RO-N3WS 上微调开源 ASR 模型,并在域内与 OOD 测试集上评估零-shot 与微调后的性能。
  • 通过对自然 RO-N3WS 数据、合成 TTS 数据以及混合配置进行微调,比较自然与合成监督的差异。
  • 通过按来源(ProTV 与 Antena1)和按域(有声读物 Audiobooks、电影 Films、故事 Stories、播客 Podcasts)报告,分析域鲁棒性。
  • 提供基线模型与微调模型、脚本与数据划分,以便可重复性研究。
Figure 1: Recording-duration histograms (in seconds) of collected audio files from ProTV News (left) and Observator News (right).
Figure 1: Recording-duration histograms (in seconds) of collected audio files from ProTV News (left) and Observator News (right).

实验结果

研究问题

  • RQ1RO-N3WS 如何影响罗马尼亚语 ASR 模型对域内与域外语音的泛化?
  • RQ2在域内和 OOD 数据上对 RO-N3WS 进行微调能带来哪些提升?
  • RQ3合成(TTS)语音监督与自然数据在适应罗马尼亚语 ASR 模型方面有何差异?
  • RQ4哪些因素(来源、域、韵律)对域迁移下的鲁棒性影响最大?
  • RQ5表达性 TTS 增强是否能弥合低资源罗马尼亚语 ASR 的性能差距?

主要发现

ModelProTV (In-domain)Antena1 (In-domain)Audiobooks (OOD)Films (OOD)Stories (OOD)Podcasts (OOD)
W2V240.875.4????
Whisp-S40.060.041.131.9??
Whisp-L14.827.310.9???
Whisp-S + Echo18.854.121.021.6??
Microsoft Transcribe10.631.117.6???
Google Chirp (USM)20.237.622.4???
Vatis13.031.216.010.2??
  • 零-shot 结果在不同模型与域之间差异显著;Whisper Large 与 Whisper Small + Echo 在域内优于 Wav2Vec 2.0,而商业系统在某些域内情形下也可超越开源模型。
  • 在 RO-N3WS 上微调可在域内与 OOD 集上显著降低 WER(例如 Whisper Small + RO-N3WS 将 ProTV 的 WER 从 31.6% 降至 4.1%)。
  • Whisper Large + RO-N3WS 在域内 ProTV(2.9%)与 Antena1(4.4%)上达到最低 WER,但 OOD 性能可能因域过拟合而略有下降。
  • Echo 预训练提升 OOD 鲁棒性,将自然 RO-N3WS 与高质量的合成语音混合后,与仅自然数据的模型差距缩小,混合配置在各域上表现具有竞争力。
  • 仅合成训练在零-shot 基线上有提升,但落后于自然数据,而混合训练提供稳健提升,尤其在声学多样的域上。
Figure 2: Recording-duration histograms (in seconds) for out-of-distribution subsets: audiobooks, Romanian films, children’s stories and podcasts.
Figure 2: Recording-duration histograms (in seconds) for out-of-distribution subsets: audiobooks, Romanian films, children’s stories and podcasts.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。