[논문 리뷰] TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling
TW-Sound580K은 Verify-Generate-Critique 선별 및 Dual-ASR 중재로 구성된 대만어 오디오-텍스트 지시 데이터셋을 도입하여 Tai-LALM이 TAU 벤치마크에서 지역화된 오디오 이해에 있어 최첨단 성능을 달성하도록 한다.
Large Audio-Language Models (LALMs) typically struggle with localized dialectal prosody due to the scarcity of specialized corpora. We present TW-Sound580K, a Taiwanese audio-text instruction dataset developed through a Verify-Generate-Critique (VGC) protocol. This pipeline leverages Dual-ASR validation to filter 522K raw clips, subsequently expanding them into 580,000 high-fidelity instruction pairs using a teacher model. The dataset's utility is demonstrated through Tai-LALM, which fine-tunes a DeSTA 2.5-Audio-initialized backbone and incorporates a dynamic Dual-ASR Arbitration strategy to optimize transcription selection during inference. On the TAU Benchmark, Tai-LALM reaches 49.1% accuracy, marking a 6.5% absolute improvement over the zero-shot baseline (42.6% with ASR text conditioning). This confirms that integrating regional corpora with rigorous curation and dynamic arbitration significantly enhances LALM performance on localized speech.
연구 동기 및 목표
- 대만 방언 및 지역 소리에 대한 대형 오디오-언어 모델(LALMs)의 지역화 격차를 해소한다.
- 522K 개의 원시 클립에서 580K 쌍으로 확장된 고충실도 지역 특화 지시 데이터셋을 생성한다.
- 고품질 감독을 보장하고 시맨틱 환상을 줄이기 위해 VGC 기반 자동 큐레이션 파이프라인을 개발한다.
- 배포 중 전사를 안정화하기 위한 동적 추론 메커니즘(AC-PPL 가이드 Dual-ASR 중재)을 제안한다.
- Tai-LALM을 미세 조정하고 TAU 벤치마크에서 평가하여 접근법의 효과를 입증한다.
제안 방법
- ~522K 개의 원시 대만 중심 오디오 클립을 수집하고 ~456K 개의 검증 샘플(~3,537시간)로 선별한다.
- 교사 모델로 각 클립당 하나 이상의 지시를 생성하여 580K 오디오-텍스트 쌍을 만든다.
- Dual-ASR 필터링이 적용된 VGC(Verify-Generate-Critique)를 사용하여 불일치를 제거하고 근거 있는 자막을 보장한다.
- 자가 생성 대상 메커니즘을 사용하여 Tai-LALM(DeSTA 2.5-Audio 백본, LoRA 파인튜닝)을 훈련시킨다.
- 추론 중에는 AC-PPL 가이드 Dual-ASR 중재를 사용하여 여러 ASR 출력 중 최적의 전사를 선택하고, 모든 후보에 음향 표식이 없으면 텍스트를 건너뛴다.
실험 결과
연구 질문
- RQ1VGC 기반 데이터 큐레이션이 LALMs용 지역 특정 오디오-텍스트 감독의 충실도와 유용성을 향상시키는가?
- RQ2동적 추론 중재(AC-PPL)가 런타임 환상을 줄이고 지역 방언의 전사 정확도를 개선하는가?
- RQ3TW-Sound580K에서의 파인튜닝이 제로샷 기준 및 비정제 데이터와 비교하여 TAU 벤치마크에서 성능에 어떤 영향을 미치는가?
- RQ4LALMs에서 지역 음향 정렬에 대한 데이터 규모와 데이터 품질의 영향은 얼마인가?
- RQ5지역 맞춤형 학습이 일반 오디오 능력을 보존하면서 지역 특화 이해를 향상시키는가?
주요 결과
| System | Single | Multi | Overall |
|---|---|---|---|
| Tai-LALM (Ours) | 49.4 | 48.8 | 49.1 |
| Qwen2-Audio + TW-Sound580K | 33.0 | 31.8 | 32.5 |
| DeSTA 2.5-Audio (Zero-shot) | 43.3 | 41.7 | 42.6 |
| Qwen2-Audio-Instruct | 30.3 | 27.8 | 29.3 |
| Gemini 2.5 Pro (Teacher) | 72.4 | 73.9 | 73.0 |
- Tai-LALM은 TAU에서 49.1%의 전체 정확도를 달성하여 제로샷 기반(42.6%)보다 6.5pp 더 우수하다.
- Dual-ASR 중재를 통한 VGC 기반 큐레이션은 TAU 정확도 49.1%를 산출하며, 순수 비필터링 데이터 파인튜닝보다 격차를 더 크게 줄인다.
- 무효화 실험은 VGC가 없으면 대용량 데이터에도 정확도가 더 낮음을 보여준다(예: Dual-ASR 및 AC-PPL로 47.5%; Whisper-v3 제어로 46.4%).
- TW-Sound580K 데이터셋으로의 파인튜닝은 핵심 능력을 유지하며(LibriSpeech WER: 3.92%), 재앙적 망각이 없음을 나타낸다.
- 이 방법은 확장 가능하다: TW-Sound580K의 적용은 다른 아키텍처에도 이득을 주며(예: Qwen2-Audio + TW-Sound580K에서 이득), 5K에서 580K 쌍으로의 명확한 스케일링 추세를 따른다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.