QUICK REVIEW

[논문 리뷰] RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Alexandra Diaconu, Mădălina Vînaga|arXiv (Cornell University)|2026. 03. 02.

Speech Recognition and Synthesis인용 수 0

한 줄 요약

RO-N3WS는 도메인 강건성 및 Whisper와 Wav2Vec 2.0의 미세조정 이점을 연구하기 위해 도메인 내 뉴스와 분포 밖 음성(126시간)을 포함하는 루마니아어 ASR 벤치마크를 도입하며, 합성 대 실제 감독 하의 분석을 포함합니다.

ABSTRACT

We introduce RO-N3WS, a benchmark Romanian speech dataset designed to improve generalization in automatic speech recognition (ASR), particularly in low-resource and out-of-distribution (OOD) conditions. RO-N3WS comprises over 126 hours of transcribed audio collected from broadcast news, literary audiobooks, film dialogue, children's stories, and conversational podcast speech. This diversity enables robust training and fine-tuning across stylistically distinct domains. We evaluate several state-of-the-art ASR systems (Whisper, Wav2Vec 2.0) in both zero-shot and fine-tuned settings, and conduct controlled comparisons using synthetic data generated with expressive TTS models. Our results show that even limited fine-tuning on real speech from RO-N3WS yields substantial WER improvements over zero-shot baselines. We will release all models, scripts, and data splits to support reproducible research in multilingual ASR, domain adaptation, and lightweight deployment.

연구 동기 및 목표

저자원 조건에서 일반화 연구를 위한 방송 뉴스와 표현적 OOD 콘텐츠를 결합한 다양한 루마니아어 ASR 데이터세트를 제공합니다.
RO-N3WS에서 최첨단 모델(Whisper, Wav2Vec 2.0)을 제로샷 및 미세조정 규범으로 벤치마크합니다.
모델 적응 및 강건성 평가를 위해 자연 감독 vs. 합성(TTS) 감독 비교를 수행합니다.
도메인 이동을 이해하기 위해 언어학적·운율적 특징(명명된 개체, 표현력)을 분석합니다.
다국어 ASR 및 도메인 적응에서 재현 가능한 연구를 지원하기 위해 데이터, 모델 및 스크립트를 공개합니다.

제안 방법

도메인 내(뉴스) 및 분포 밖(OOD) 하위집합을 합산하여 총 126시간의 루마니아어 음성을 포함하는 RO-N3WS를 구성합니다.
다음에철자 부호 복원, 숫자 확장, 엔티티 보존 처리를 포함한 수동 전사 및 주석 부호화를 수행합니다; 파일당 두 명의 주석가를 배정합니다.
RO-N3WS에서 오픈소스 ASR 모델을 미세조정하고 도메인 내 테스트 세트와 OOD 테스트 세트에서 제로샷 및 미세조정 성능을 평가합니다.
자연스러운 RO-N3WS 데이터, 합성 TTS 데이터 및 혼합 구성에서 Whisper Small을 미세조정하여 자연 데이터와의 감독 대비를 비교합니다.
출처별(ProTV 대 Antena1) 및 도메인별(오디오북, 영화, 이야기, 팟캐스트)에 따른 도메인 강건성을 보고하여 분석합니다.
재현성을 위해 기준선 및 미세조정 모델, 스크립트 및 데이터 분할을 제공합니다.

Figure 1: Recording-duration histograms (in seconds) of collected audio files from ProTV News (left) and Observator News (right).

실험 결과

연구 질문

RQ1RO-N3WS가 도메인 내외 음성에 대한 루마니아어 ASR 모델의 일반화에 어떤 영향을 미치는가?
RQ2도메인 내 및 OOD 데이터 모두에서 RO-N3WS를 이용한 미세조정으로 어떤 이점이 얻어지는가?
RQ3합성(TTS) 음성 감독이 실제 데이터에 비해 루마니아어 ASR 모델 적응에 어떤 차이를 만드는가?
RQ4도메인 변화에 따른 강건성에 가장 큰 영향을 주는 요인은 출처, 도메인, 운율인가?
RQ5표현력 있는 TTS 증강이 저자원 루마니아어 ASR의 성능 격차를 줄일 수 있는가?

주요 결과

모델	ProTV (도메인 내)	Antena1 (도메인 내)	Audiobooks (OOD)	Films (OOD)	Stories (OOD)	Podcasts (OOD)
W2V2	40.8	75.4	?	?	?	?
Whisp-S	40.0	60.0	41.1	31.9	?	?
Whisp-L	14.8	27.3	10.9	?	?	?
Whisp-S + Echo	18.8	54.1	21.0	21.6	?	?
Microsoft Transcribe	10.6	31.1	17.6	?	?	?
Google Chirp (USM)	20.2	37.6	22.4	?	?	?
Vatis	13.0	31.2	16.0	10.2	?	?

제로샷 결과는 모델과 도메인에 따라 큰 차이를 보이며, Whisper Large 및 Whisper Small + Echo가 도메인 내에서 Wav2Vec 2.0보다 우수하며, 일부 도메인 내에서 상용 시스템이 오픈 모델을 능가할 수 있다.
RO-N3WS를 이용한 미세조정은 도메인 내 및 OOD 세트 모두에서 WER을 크게 감소시키며(예: Whisper Small + RO-N3WS는 ProTV를 31.6%에서 4.1% WER로 감소시킴).
Whisper Large + RO-N3WS는 ProTV(2.9%) 및 Antena1(4.4%)에서 도메인 내 최저 WER를 달성하지만, 도메인 과적합으로 인해 OOD 성능이 다소 저하될 수 있다.
Echo 사전학습은 OOD 강건성을 향상시키며, 자연 RO-N3WS와 고품질 합성 음성을 혼합하면 자연만 모델과의 간극이 좁혀지고 혼합 설정은 도메인 간에 경쟁력 있는 성능을 보인다.
합성 전용 학습은 제로샷보다 성능이 향상되나 자연 데이터에 미치지 못하고, 혼합 학습은 특히 음향적으로 다양한 도메인에서 강건한 이득을 제공한다.

Figure 2: Recording-duration histograms (in seconds) for out-of-distribution subsets: audiobooks, Romanian films, children’s stories and podcasts.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.