QUICK REVIEW

[论文解读] RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Alexandra Diaconu, Mădălina Vînaga|arXiv (Cornell University)|Mar 2, 2026

Speech Recognition and Synthesis被引用 0

一句话总结

RO-N3WS 引入了126小时的罗马尼亚语 ASR 基准测试，包含域内新闻与域外语音，以研究领域鲁棒性及对 Whisper 与 Wav2Vec 2.0 的微调收益，并比较合成监督与自然监督分析。

ABSTRACT

We introduce RO-N3WS, a benchmark Romanian speech dataset designed to improve generalization in automatic speech recognition (ASR), particularly in low-resource and out-of-distribution (OOD) conditions. RO-N3WS comprises over 126 hours of transcribed audio collected from broadcast news, literary audiobooks, film dialogue, children's stories, and conversational podcast speech. This diversity enables robust training and fine-tuning across stylistically distinct domains. We evaluate several state-of-the-art ASR systems (Whisper, Wav2Vec 2.0) in both zero-shot and fine-tuned settings, and conduct controlled comparisons using synthetic data generated with expressive TTS models. Our results show that even limited fine-tuning on real speech from RO-N3WS yields substantial WER improvements over zero-shot baselines. We will release all models, scripts, and data splits to support reproducible research in multilingual ASR, domain adaptation, and lightweight deployment.

研究动机与目标

提供多样化的罗马尼亚语 ASR 数据集，结合广播新闻与具表达性的域外内容，以研究低资源条件下的泛化。
在 RO-N3WS 上基准化最先进模型（Whisper、Wav2Vec 2.0）的零-shot 与微调，让其在多域测试集上工作。
比较自然监督与合成（TTS）监督在模型适应与鲁棒性方面的差异。
分析语言学与韵律特征（命名实体、表达性）以理解域迁移。
发布数据、模型与脚本，支持多语言 ASR 与领域自适应的可重复研究。

提出的方法

构建 RO-N3WS，其中域内（新闻）与域外（OOD）子集总计 126 小时罗马尼亚语语音。
对文件进行手工转写与标注，恢复重音符号、扩展数字、保留实体；每个文件两名标注者。
在 RO-N3WS 上微调开源 ASR 模型，并在域内与 OOD 测试集上评估零-shot 与微调后的性能。
通过对自然 RO-N3WS 数据、合成 TTS 数据以及混合配置进行微调，比较自然与合成监督的差异。
通过按来源（ProTV 与 Antena1）和按域（有声读物 Audiobooks、电影 Films、故事 Stories、播客 Podcasts）报告，分析域鲁棒性。
提供基线模型与微调模型、脚本与数据划分，以便可重复性研究。

Figure 1: Recording-duration histograms (in seconds) of collected audio files from ProTV News (left) and Observator News (right).

实验结果

研究问题

RQ1RO-N3WS 如何影响罗马尼亚语 ASR 模型对域内与域外语音的泛化？
RQ2在域内和 OOD 数据上对 RO-N3WS 进行微调能带来哪些提升？
RQ3合成（TTS）语音监督与自然数据在适应罗马尼亚语 ASR 模型方面有何差异？
RQ4哪些因素（来源、域、韵律）对域迁移下的鲁棒性影响最大？
RQ5表达性 TTS 增强是否能弥合低资源罗马尼亚语 ASR 的性能差距？

主要发现

Model	ProTV (In-domain)	Antena1 (In-domain)	Audiobooks (OOD)	Films (OOD)	Stories (OOD)	Podcasts (OOD)
W2V2	40.8	75.4	?	?	?	?
Whisp-S	40.0	60.0	41.1	31.9	?	?
Whisp-L	14.8	27.3	10.9	?	?	?
Whisp-S + Echo	18.8	54.1	21.0	21.6	?	?
Microsoft Transcribe	10.6	31.1	17.6	?	?	?
Google Chirp (USM)	20.2	37.6	22.4	?	?	?
Vatis	13.0	31.2	16.0	10.2	?	?

零-shot 结果在不同模型与域之间差异显著；Whisper Large 与 Whisper Small + Echo 在域内优于 Wav2Vec 2.0，而商业系统在某些域内情形下也可超越开源模型。
在 RO-N3WS 上微调可在域内与 OOD 集上显著降低 WER（例如 Whisper Small + RO-N3WS 将 ProTV 的 WER 从 31.6% 降至 4.1%）。
Whisper Large + RO-N3WS 在域内 ProTV（2.9%）与 Antena1（4.4%）上达到最低 WER，但 OOD 性能可能因域过拟合而略有下降。
Echo 预训练提升 OOD 鲁棒性，将自然 RO-N3WS 与高质量的合成语音混合后，与仅自然数据的模型差距缩小，混合配置在各域上表现具有竞争力。
仅合成训练在零-shot 基线上有提升，但落后于自然数据，而混合训练提供稳健提升，尤其在声学多样的域上。

Figure 2: Recording-duration histograms (in seconds) for out-of-distribution subsets: audiobooks, Romanian films, children’s stories and podcasts.

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。