Skip to main content
QUICK REVIEW

[논문 리뷰] TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

Hao-Hui Xie, Ho-Lam Chung|arXiv (Cornell University)|2026. 03. 05.
Speech Recognition and Synthesis인용 수 0
한 줄 요약

TW-Sound580K은 Verify-Generate-Critique 선별 및 Dual-ASR 중재로 구성된 대만어 오디오-텍스트 지시 데이터셋을 도입하여 Tai-LALM이 TAU 벤치마크에서 지역화된 오디오 이해에 있어 최첨단 성능을 달성하도록 한다.

ABSTRACT

Large Audio-Language Models (LALMs) typically struggle with localized dialectal prosody due to the scarcity of specialized corpora. We present TW-Sound580K, a Taiwanese audio-text instruction dataset developed through a Verify-Generate-Critique (VGC) protocol. This pipeline leverages Dual-ASR validation to filter 522K raw clips, subsequently expanding them into 580,000 high-fidelity instruction pairs using a teacher model. The dataset's utility is demonstrated through Tai-LALM, which fine-tunes a DeSTA 2.5-Audio-initialized backbone and incorporates a dynamic Dual-ASR Arbitration strategy to optimize transcription selection during inference. On the TAU Benchmark, Tai-LALM reaches 49.1% accuracy, marking a 6.5% absolute improvement over the zero-shot baseline (42.6% with ASR text conditioning). This confirms that integrating regional corpora with rigorous curation and dynamic arbitration significantly enhances LALM performance on localized speech.

연구 동기 및 목표

  • 대만 방언 및 지역 소리에 대한 대형 오디오-언어 모델(LALMs)의 지역화 격차를 해소한다.
  • 522K 개의 원시 클립에서 580K 쌍으로 확장된 고충실도 지역 특화 지시 데이터셋을 생성한다.
  • 고품질 감독을 보장하고 시맨틱 환상을 줄이기 위해 VGC 기반 자동 큐레이션 파이프라인을 개발한다.
  • 배포 중 전사를 안정화하기 위한 동적 추론 메커니즘(AC-PPL 가이드 Dual-ASR 중재)을 제안한다.
  • Tai-LALM을 미세 조정하고 TAU 벤치마크에서 평가하여 접근법의 효과를 입증한다.

제안 방법

  • ~522K 개의 원시 대만 중심 오디오 클립을 수집하고 ~456K 개의 검증 샘플(~3,537시간)로 선별한다.
  • 교사 모델로 각 클립당 하나 이상의 지시를 생성하여 580K 오디오-텍스트 쌍을 만든다.
  • Dual-ASR 필터링이 적용된 VGC(Verify-Generate-Critique)를 사용하여 불일치를 제거하고 근거 있는 자막을 보장한다.
  • 자가 생성 대상 메커니즘을 사용하여 Tai-LALM(DeSTA 2.5-Audio 백본, LoRA 파인튜닝)을 훈련시킨다.
  • 추론 중에는 AC-PPL 가이드 Dual-ASR 중재를 사용하여 여러 ASR 출력 중 최적의 전사를 선택하고, 모든 후보에 음향 표식이 없으면 텍스트를 건너뛴다.

실험 결과

연구 질문

  • RQ1VGC 기반 데이터 큐레이션이 LALMs용 지역 특정 오디오-텍스트 감독의 충실도와 유용성을 향상시키는가?
  • RQ2동적 추론 중재(AC-PPL)가 런타임 환상을 줄이고 지역 방언의 전사 정확도를 개선하는가?
  • RQ3TW-Sound580K에서의 파인튜닝이 제로샷 기준 및 비정제 데이터와 비교하여 TAU 벤치마크에서 성능에 어떤 영향을 미치는가?
  • RQ4LALMs에서 지역 음향 정렬에 대한 데이터 규모와 데이터 품질의 영향은 얼마인가?
  • RQ5지역 맞춤형 학습이 일반 오디오 능력을 보존하면서 지역 특화 이해를 향상시키는가?

주요 결과

SystemSingleMultiOverall
Tai-LALM (Ours)49.448.849.1
Qwen2-Audio + TW-Sound580K33.031.832.5
DeSTA 2.5-Audio (Zero-shot)43.341.742.6
Qwen2-Audio-Instruct30.327.829.3
Gemini 2.5 Pro (Teacher)72.473.973.0
  • Tai-LALM은 TAU에서 49.1%의 전체 정확도를 달성하여 제로샷 기반(42.6%)보다 6.5pp 더 우수하다.
  • Dual-ASR 중재를 통한 VGC 기반 큐레이션은 TAU 정확도 49.1%를 산출하며, 순수 비필터링 데이터 파인튜닝보다 격차를 더 크게 줄인다.
  • 무효화 실험은 VGC가 없으면 대용량 데이터에도 정확도가 더 낮음을 보여준다(예: Dual-ASR 및 AC-PPL로 47.5%; Whisper-v3 제어로 46.4%).
  • TW-Sound580K 데이터셋으로의 파인튜닝은 핵심 능력을 유지하며(LibriSpeech WER: 3.92%), 재앙적 망각이 없음을 나타낸다.
  • 이 방법은 확장 가능하다: TW-Sound580K의 적용은 다른 아키텍처에도 이득을 주며(예: Qwen2-Audio + TW-Sound580K에서 이득), 5K에서 580K 쌍으로의 명확한 스케일링 추세를 따른다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.