QUICK REVIEW

[논문 리뷰] TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

Hao-Hui Xie, Ho-Lam Chung|arXiv (Cornell University)|2026. 03. 05.

Speech Recognition and Synthesis인용 수 0

한 줄 요약

TW-Sound580K은 Verify-Generate-Critique 선별 및 Dual-ASR 중재로 구성된 대만어 오디오-텍스트 지시 데이터셋을 도입하여 Tai-LALM이 TAU 벤치마크에서 지역화된 오디오 이해에 있어 최첨단 성능을 달성하도록 한다.

ABSTRACT

Large Audio-Language Models (LALMs) typically struggle with localized dialectal prosody due to the scarcity of specialized corpora. We present TW-Sound580K, a Taiwanese audio-text instruction dataset developed through a Verify-Generate-Critique (VGC) protocol. This pipeline leverages Dual-ASR validation to filter 522K raw clips, subsequently expanding them into 580,000 high-fidelity instruction pairs using a teacher model. The dataset's utility is demonstrated through Tai-LALM, which fine-tunes a DeSTA 2.5-Audio-initialized backbone and incorporates a dynamic Dual-ASR Arbitration strategy to optimize transcription selection during inference. On the TAU Benchmark, Tai-LALM reaches 49.1% accuracy, marking a 6.5% absolute improvement over the zero-shot baseline (42.6% with ASR text conditioning). This confirms that integrating regional corpora with rigorous curation and dynamic arbitration significantly enhances LALM performance on localized speech.

연구 동기 및 목표

대만 방언 및 지역 소리에 대한 대형 오디오-언어 모델(LALMs)의 지역화 격차를 해소한다.
522K 개의 원시 클립에서 580K 쌍으로 확장된 고충실도 지역 특화 지시 데이터셋을 생성한다.
고품질 감독을 보장하고 시맨틱 환상을 줄이기 위해 VGC 기반 자동 큐레이션 파이프라인을 개발한다.
배포 중 전사를 안정화하기 위한 동적 추론 메커니즘(AC-PPL 가이드 Dual-ASR 중재)을 제안한다.
Tai-LALM을 미세 조정하고 TAU 벤치마크에서 평가하여 접근법의 효과를 입증한다.

제안 방법

~522K 개의 원시 대만 중심 오디오 클립을 수집하고 ~456K 개의 검증 샘플(~3,537시간)로 선별한다.
교사 모델로 각 클립당 하나 이상의 지시를 생성하여 580K 오디오-텍스트 쌍을 만든다.
Dual-ASR 필터링이 적용된 VGC(Verify-Generate-Critique)를 사용하여 불일치를 제거하고 근거 있는 자막을 보장한다.
자가 생성 대상 메커니즘을 사용하여 Tai-LALM(DeSTA 2.5-Audio 백본, LoRA 파인튜닝)을 훈련시킨다.
추론 중에는 AC-PPL 가이드 Dual-ASR 중재를 사용하여 여러 ASR 출력 중 최적의 전사를 선택하고, 모든 후보에 음향 표식이 없으면 텍스트를 건너뛴다.

실험 결과

연구 질문

RQ1VGC 기반 데이터 큐레이션이 LALMs용 지역 특정 오디오-텍스트 감독의 충실도와 유용성을 향상시키는가?
RQ2동적 추론 중재(AC-PPL)가 런타임 환상을 줄이고 지역 방언의 전사 정확도를 개선하는가?
RQ3TW-Sound580K에서의 파인튜닝이 제로샷 기준 및 비정제 데이터와 비교하여 TAU 벤치마크에서 성능에 어떤 영향을 미치는가?
RQ4LALMs에서 지역 음향 정렬에 대한 데이터 규모와 데이터 품질의 영향은 얼마인가?
RQ5지역 맞춤형 학습이 일반 오디오 능력을 보존하면서 지역 특화 이해를 향상시키는가?

주요 결과

System	Single	Multi	Overall
Tai-LALM (Ours)	49.4	48.8	49.1
Qwen2-Audio + TW-Sound580K	33.0	31.8	32.5
DeSTA 2.5-Audio (Zero-shot)	43.3	41.7	42.6
Qwen2-Audio-Instruct	30.3	27.8	29.3
Gemini 2.5 Pro (Teacher)	72.4	73.9	73.0

Tai-LALM은 TAU에서 49.1%의 전체 정확도를 달성하여 제로샷 기반(42.6%)보다 6.5pp 더 우수하다.
Dual-ASR 중재를 통한 VGC 기반 큐레이션은 TAU 정확도 49.1%를 산출하며, 순수 비필터링 데이터 파인튜닝보다 격차를 더 크게 줄인다.
무효화 실험은 VGC가 없으면 대용량 데이터에도 정확도가 더 낮음을 보여준다(예: Dual-ASR 및 AC-PPL로 47.5%; Whisper-v3 제어로 46.4%).
TW-Sound580K 데이터셋으로의 파인튜닝은 핵심 능력을 유지하며(LibriSpeech WER: 3.92%), 재앙적 망각이 없음을 나타낸다.
이 방법은 확장 가능하다: TW-Sound580K의 적용은 다른 아키텍처에도 이득을 주며(예: Qwen2-Audio + TW-Sound580K에서 이득), 5K에서 580K 쌍으로의 명확한 스케일링 추세를 따른다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.