Skip to main content
QUICK REVIEW

[論文レビュー] TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

Hao-Hui Xie, Ho-Lam Chung|arXiv (Cornell University)|Mar 5, 2026
Speech Recognition and Synthesis被引用数 0
ひとこと要約

TW-Sound580K は Verify-Generate-Critique 編成と Dual-ASR 仲裁を用いて構築された台湾語音-text 指示データセットで、Tai-LALM が TAU Benchmark 上で局所化された音声理解の最先端を達成できる。

ABSTRACT

Large Audio-Language Models (LALMs) typically struggle with localized dialectal prosody due to the scarcity of specialized corpora. We present TW-Sound580K, a Taiwanese audio-text instruction dataset developed through a Verify-Generate-Critique (VGC) protocol. This pipeline leverages Dual-ASR validation to filter 522K raw clips, subsequently expanding them into 580,000 high-fidelity instruction pairs using a teacher model. The dataset's utility is demonstrated through Tai-LALM, which fine-tunes a DeSTA 2.5-Audio-initialized backbone and incorporates a dynamic Dual-ASR Arbitration strategy to optimize transcription selection during inference. On the TAU Benchmark, Tai-LALM reaches 49.1% accuracy, marking a 6.5% absolute improvement over the zero-shot baseline (42.6% with ASR text conditioning). This confirms that integrating regional corpora with rigorous curation and dynamic arbitration significantly enhances LALM performance on localized speech.

研究の動機と目的

  • 大規模な音声言語モデル(LALMs)の台湾方言および地域音声に対する局所化ギャップを解消する。
  • 522K の生デクリップを拡張し 580K ペアの高忠実度・地域特化の指示データセットを作成する。
  • 高品質な監督を保証し意味的幻覚を抑制するための VGC ベースの自動編成パイプラインを開発する。
  • デプロイ時の転写安定化を図るダイナミック推論機構(AC-PPL ガイド付き Dual-ASR 仲裁)を提案する。
  • Tai-LALM の微調整と TAU Benchmark での評価により手法の有効性を実証する。

提案手法

  • 約522K の台湾中心の生音声クリップを収集し、約456K の検証済みサンプル(約3,537 時間)にフィルタリングする。
  • 各クリップに教師モデルを用いて1つ以上の指示を生成し、580K の音声-テキストペアを作成する。
  • VGC(Verify-Generate-Critique)と Dual-ASR フィルタリングを適用して矛盾を排除し、根拠のあるキャプションを確保する。
  • 自Stephanie-generated target mechanism を用いて Tai-LALM(DeSTA 2.5-Audio バックボーン、LoRA 微調整)を訓練する。
  • 推論時には AC-PPL ガイド付き Dual-ASR 仲裁を用いて複数の ASR 出力から最良の転写を選択する。音声的手がかりが欠如している候補はスキップする。

実験結果

リサーチクエスチョン

  • RQ1VGC ベースのデータ編成は LALMs の地域固有の音声-テキスト監督の忠実性と有用性を向上させるか。
  • RQ2ダイナミック推論仲裁(AC-PPL)はランタイム幻覚を減らし、局所方言の転写精度を改善するか。
  • RQ3TW-Sound580K での微調整は TAU benchmark の性能を、ゼロショットベースラインやフィルタリングなしデータと比べてどう向上させるか。
  • RQ4地域的なデータ規模とデータ品質のバランスが LALMs の地域音響整合性へ及ぼす影響は。
  • RQ5局所化学習は一般的な音声能力を保持しつつ地域特異的理解を高めるか。

主な発見

SystemSingleMultiOverall
Tai-LALM (Ours)49.448.849.1
Qwen2-Audio + TW-Sound580K33.031.832.5
DeSTA 2.5-Audio (Zero-shot)43.341.742.6
Qwen2-Audio-Instruct30.327.829.3
Gemini 2.5 Pro (Teacher)72.473.973.0
  • Tai-LALM は TAU で総合精度 49.1% を達成し、ゼロショット基準 42.6% を 6.5 ポイント上回る。
  • VGC ベースの編成と Dual-ASR 仲裁は TAU 精度 49.1% を達成し、素の未フィルタデータ微調整よりもギャップを埋める。
  • アブレーションにより、VGC なしだと大規模データでも精度が低下(例:Dual-ASR と AC-PPL で 47.5%、Whisper-v3 コントロールで 46.4%)。
  • TW-Sound580K データセットで微調整するとコア能力(LibriSpeech WER: 3.92%)を維持でき、壊滅的な忘却は生じない。
  • 手法はスケール可能で、TW-Sound580K の適用は他のアーキテクチャにも恩恵を与え(例:Qwen2-Audio + TW-Sound580K で利益)、5K から 580K ペアへ明確なスケーリング傾向を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。