Skip to main content
QUICK REVIEW

[논문 리뷰] RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Alexandra Diaconu, Mădălina Vînaga|arXiv (Cornell University)|2026. 03. 02.
Speech Recognition and Synthesis인용 수 0
한 줄 요약

RO-N3WS는 도메인 강건성 및 Whisper와 Wav2Vec 2.0의 미세조정 이점을 연구하기 위해 도메인 내 뉴스와 분포 밖 음성(126시간)을 포함하는 루마니아어 ASR 벤치마크를 도입하며, 합성 대 실제 감독 하의 분석을 포함합니다.

ABSTRACT

We introduce RO-N3WS, a benchmark Romanian speech dataset designed to improve generalization in automatic speech recognition (ASR), particularly in low-resource and out-of-distribution (OOD) conditions. RO-N3WS comprises over 126 hours of transcribed audio collected from broadcast news, literary audiobooks, film dialogue, children's stories, and conversational podcast speech. This diversity enables robust training and fine-tuning across stylistically distinct domains. We evaluate several state-of-the-art ASR systems (Whisper, Wav2Vec 2.0) in both zero-shot and fine-tuned settings, and conduct controlled comparisons using synthetic data generated with expressive TTS models. Our results show that even limited fine-tuning on real speech from RO-N3WS yields substantial WER improvements over zero-shot baselines. We will release all models, scripts, and data splits to support reproducible research in multilingual ASR, domain adaptation, and lightweight deployment.

연구 동기 및 목표

  • 저자원 조건에서 일반화 연구를 위한 방송 뉴스와 표현적 OOD 콘텐츠를 결합한 다양한 루마니아어 ASR 데이터세트를 제공합니다.
  • RO-N3WS에서 최첨단 모델(Whisper, Wav2Vec 2.0)을 제로샷 및 미세조정 규범으로 벤치마크합니다.
  • 모델 적응 및 강건성 평가를 위해 자연 감독 vs. 합성(TTS) 감독 비교를 수행합니다.
  • 도메인 이동을 이해하기 위해 언어학적·운율적 특징(명명된 개체, 표현력)을 분석합니다.
  • 다국어 ASR 및 도메인 적응에서 재현 가능한 연구를 지원하기 위해 데이터, 모델 및 스크립트를 공개합니다.

제안 방법

  • 도메인 내(뉴스) 및 분포 밖(OOD) 하위집합을 합산하여 총 126시간의 루마니아어 음성을 포함하는 RO-N3WS를 구성합니다.
  • 다음에철자 부호 복원, 숫자 확장, 엔티티 보존 처리를 포함한 수동 전사 및 주석 부호화를 수행합니다; 파일당 두 명의 주석가를 배정합니다.
  • RO-N3WS에서 오픈소스 ASR 모델을 미세조정하고 도메인 내 테스트 세트와 OOD 테스트 세트에서 제로샷 및 미세조정 성능을 평가합니다.
  • 자연스러운 RO-N3WS 데이터, 합성 TTS 데이터 및 혼합 구성에서 Whisper Small을 미세조정하여 자연 데이터와의 감독 대비를 비교합니다.
  • 출처별(ProTV 대 Antena1) 및 도메인별(오디오북, 영화, 이야기, 팟캐스트)에 따른 도메인 강건성을 보고하여 분석합니다.
  • 재현성을 위해 기준선 및 미세조정 모델, 스크립트 및 데이터 분할을 제공합니다.
Figure 1: Recording-duration histograms (in seconds) of collected audio files from ProTV News (left) and Observator News (right).
Figure 1: Recording-duration histograms (in seconds) of collected audio files from ProTV News (left) and Observator News (right).

실험 결과

연구 질문

  • RQ1RO-N3WS가 도메인 내외 음성에 대한 루마니아어 ASR 모델의 일반화에 어떤 영향을 미치는가?
  • RQ2도메인 내 및 OOD 데이터 모두에서 RO-N3WS를 이용한 미세조정으로 어떤 이점이 얻어지는가?
  • RQ3합성(TTS) 음성 감독이 실제 데이터에 비해 루마니아어 ASR 모델 적응에 어떤 차이를 만드는가?
  • RQ4도메인 변화에 따른 강건성에 가장 큰 영향을 주는 요인은 출처, 도메인, 운율인가?
  • RQ5표현력 있는 TTS 증강이 저자원 루마니아어 ASR의 성능 격차를 줄일 수 있는가?

주요 결과

모델ProTV (도메인 내)Antena1 (도메인 내)Audiobooks (OOD)Films (OOD)Stories (OOD)Podcasts (OOD)
W2V240.875.4????
Whisp-S40.060.041.131.9??
Whisp-L14.827.310.9???
Whisp-S + Echo18.854.121.021.6??
Microsoft Transcribe10.631.117.6???
Google Chirp (USM)20.237.622.4???
Vatis13.031.216.010.2??
  • 제로샷 결과는 모델과 도메인에 따라 큰 차이를 보이며, Whisper Large 및 Whisper Small + Echo가 도메인 내에서 Wav2Vec 2.0보다 우수하며, 일부 도메인 내에서 상용 시스템이 오픈 모델을 능가할 수 있다.
  • RO-N3WS를 이용한 미세조정은 도메인 내 및 OOD 세트 모두에서 WER을 크게 감소시키며(예: Whisper Small + RO-N3WS는 ProTV를 31.6%에서 4.1% WER로 감소시킴).
  • Whisper Large + RO-N3WS는 ProTV(2.9%) 및 Antena1(4.4%)에서 도메인 내 최저 WER를 달성하지만, 도메인 과적합으로 인해 OOD 성능이 다소 저하될 수 있다.
  • Echo 사전학습은 OOD 강건성을 향상시키며, 자연 RO-N3WS와 고품질 합성 음성을 혼합하면 자연만 모델과의 간극이 좁혀지고 혼합 설정은 도메인 간에 경쟁력 있는 성능을 보인다.
  • 합성 전용 학습은 제로샷보다 성능이 향상되나 자연 데이터에 미치지 못하고, 혼합 학습은 특히 음향적으로 다양한 도메인에서 강건한 이득을 제공한다.
Figure 2: Recording-duration histograms (in seconds) for out-of-distribution subsets: audiobooks, Romanian films, children’s stories and podcasts.
Figure 2: Recording-duration histograms (in seconds) for out-of-distribution subsets: audiobooks, Romanian films, children’s stories and podcasts.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.