QUICK REVIEW

[論文レビュー] RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Alexandra Diaconu, Mădălina Vînaga|arXiv (Cornell University)|Mar 2, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

RO-N3WS は 126 時間の Romanian ASR ベンチマークを提供し、ドメインの頑健性と Whisper および Wav2Vec 2.0 のファインチューニング利点を調べるための内-domain ニュースと外部分布の音声を含む。合成と自然の監督信号の分析を含む。

ABSTRACT

We introduce RO-N3WS, a benchmark Romanian speech dataset designed to improve generalization in automatic speech recognition (ASR), particularly in low-resource and out-of-distribution (OOD) conditions. RO-N3WS comprises over 126 hours of transcribed audio collected from broadcast news, literary audiobooks, film dialogue, children's stories, and conversational podcast speech. This diversity enables robust training and fine-tuning across stylistically distinct domains. We evaluate several state-of-the-art ASR systems (Whisper, Wav2Vec 2.0) in both zero-shot and fine-tuned settings, and conduct controlled comparisons using synthetic data generated with expressive TTS models. Our results show that even limited fine-tuning on real speech from RO-N3WS yields substantial WER improvements over zero-shot baselines. We will release all models, scripts, and data splits to support reproducible research in multilingual ASR, domain adaptation, and lightweight deployment.

研究の動機と目的

放送ニュースと表現豊かな OOD コンテンツを組み合わせた多様な Romanian ASR データセットを提供し、低リソース条件下での汎化を研究する。
RO-N3WS に対して最先端モデル（Whisper、Wav2Vec 2.0）をゼロショットおよびファインチューニングの体制でベンチマークする。
自然的監督信号と合成（TTS）監督信号のモデル適応と頑健性を比較する。
言語学的・韻律的特徴（固有表現、表現力）を分析し、ドメインシフトを理解する。
再現可能な研究をサポートするデータ、モデル、スクリプトを公開する。

提案手法

内-domain（ニュース）と OOD サブセットを合計 126 時間の Romanian 音声として構築する。
ディアクリティックスの復元、数字の展開、固有表現の保持を含む手動転写と注釈付け；ファイルごとに二名の注釈者。
RO-N3WS でオープンソース ASR モデルをファインチューニングし、内-domain および OOD テストセットでゼロショットとファインチューニング済みの性能を評価する。
自然 RO-N3WS データ、合成 TTS データ、混合構成のいずれかで Whisper Small をファインチューニングして、自然信号と合成信号の監督を比較する。
ソース別（ProTV vs Antena1）およびドメイン別（オーディオブック、映画、物語、ポッドキャスト）でのドメイン頑健性を報告することにより分析する。
再現性を確保するため、ベースラインとファインチューニング済みモデル、スクリプト、データ分割を提供する。

Figure 1: Recording-duration histograms (in seconds) of collected audio files from ProTV News (left) and Observator News (right).

実験結果

リサーチクエスチョン

RQ1RO-N3WS は内-domain の音声と外部分布の音声に対する Romanian ASR モデルの一般化にどう影響するか？
RQ2RO-N3WS で内-domain 及び OOD データの双方をファインチューニングすることで、どんな利得を得られるか？
RQ3合成（TTS）音声の監督信号は Romanian ASR モデルの適応において自然データと比べてどうか？
RQ4どの要因（ソース、ドメイン、韻律）がドメインシフト下での頑健性に最も影響するか？
RQ5表現的な TTS 増強は低リソース Romanian ASR の性能差を埋めることができるか？

主な発見

Model	ProTV（In-domain）	Antena1（In-domain）	Audiobooks（OOD）	Films（OOD）	Stories（OOD）	Podcasts（OOD）
W2V2	40.8	75.4	?	?	?	?
Whisp-S	40.0	60.0	41.1	31.9	?	?
Whisp-L	14.8	27.3	10.9	?	?	?
Whisp-S + Echo	18.8	54.1	21.0	21.6	?	?
Microsoft Transcribe	10.6	31.1	17.6	?	?	?
Google Chirp (USM)	20.2	37.6	22.4	?	?	?
Vatis	13.0	31.2	16.0	10.2	?	?

ゼロショットの結果はモデルとドメイン間で大きなばらつきを示す；Whisper Large および Whisper Small + Echo は内-domain で Wav2Vec 2.0 を上回る一方、商用システムは一部の内-domain ケースでオープンモデルを上回ることがある。
RO-N3WS でのファインチューニングは内-domain および OOD セットの両方で大きな WER 減をもたらす（例：Whisper Small + RO-N3WS は ProTV の WER を 31.6% から 4.1% に削減）。
Whisper Large + RO-N3WS は ProTV（2.9%）および Antena1（4.4%）で最も低い内-domain WER を達成するが、OOD の性能はドメイン過学習でやや劣化することがある。
Echo の事前訓練は OOD の頑健性を高め、自然 RO-N3WS と高品質の合成音声を混合した学習は自然のみモデルとのギャップを縮め、混合設定は各ドメインで競争力を持つ。
合成のみの学習はゼロショットを上回るが自然データには及ばず、混合学習は頑健な利得を提供し、特に音響的に多様なドメインで効果的である。

Figure 2: Recording-duration histograms (in seconds) for out-of-distribution subsets: audiobooks, Romanian films, children’s stories and podcasts.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。