Skip to main content
QUICK REVIEW

[论文解读] TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

Hao-Hui Xie, Ho-Lam Chung|arXiv (Cornell University)|Mar 5, 2026
Speech Recognition and Synthesis被引用 0
一句话总结

TW-Sound580K 引入以 Verify-Generate-Critique 进行筛选与 Dual-ASR 仲裁构建的台湾音频-文本指令数据集,使 Tai-LALM 在 TAU Benchmark 上实现本地化音频理解的 state-of-the-art。

ABSTRACT

Large Audio-Language Models (LALMs) typically struggle with localized dialectal prosody due to the scarcity of specialized corpora. We present TW-Sound580K, a Taiwanese audio-text instruction dataset developed through a Verify-Generate-Critique (VGC) protocol. This pipeline leverages Dual-ASR validation to filter 522K raw clips, subsequently expanding them into 580,000 high-fidelity instruction pairs using a teacher model. The dataset's utility is demonstrated through Tai-LALM, which fine-tunes a DeSTA 2.5-Audio-initialized backbone and incorporates a dynamic Dual-ASR Arbitration strategy to optimize transcription selection during inference. On the TAU Benchmark, Tai-LALM reaches 49.1% accuracy, marking a 6.5% absolute improvement over the zero-shot baseline (42.6% with ASR text conditioning). This confirms that integrating regional corpora with rigorous curation and dynamic arbitration significantly enhances LALM performance on localized speech.

研究动机与目标

  • 解决大型音频语言模型(LALMs)在台湾方言与区域声音上的本地化差距。
  • 从 522K 原始片段扩展到 580K 对,创建高保真、区域特定的指令数据集。
  • 开发基于 VGC 的自动化筛选管线,以确保高质量监督并减少语义幻觉。
  • 提出动态推理机制(AC-PPL 指导的 Dual-ASR 仲裁)以在部署时稳定转录。
  • 通过对 Tai-LALM 进行微调并在 TAU Benchmark 上评估来证明该方法的有效性。

提出的方法

  • 收集约 ~522K 的台灣本地化音频片段,并筛选至 ~456K 的验证样本(约 3,537 小时)。
  • 利用教师模型对每个片段生成一个或多个指令,创建 580K 对音频-文本。
  • 应用 VGC(Verify-Generate-Critique)并结合 Dual-ASR 过滤,修剪不一致性并确保有据可依的字幕。
  • 使用自生成目标机制对 Tai-LALM(DeSTA 2.5-Audio 骨架,LoRA 微调)进行训练。
  • 推理阶段,使用 AC-PPL 指导的 Dual-ASR 仲裁从多个 ASR 输出中选取最佳转录;若所有候选均无声标,则跳过文本。

实验结果

研究问题

  • RQ1VGC 基于数据筛选是否提升区域性音频-文本监督对 LALMs 的保真性与实用性?
  • RQ2动态推理仲裁(AC-PPL)是否能降低运行时幻觉并提升本地方言转录准确性?
  • RQ3在 TW-Sound580K 上微调对 TAU 基准的表现是否优于零样本基线与未筛选数据?
  • RQ4区域声学对齐中,数据规模对数据质量的影响如何?
  • RQ5本地化训练是否在提升区域特定理解的同时保留通用音频能力?

主要发现

系统单一多样总体
Tai-LALM (Ours)49.448.849.1
Qwen2-Audio + TW-Sound580K33.031.832.5
DeSTA 2.5-Audio (Zero-shot)43.341.742.6
Qwen2-Audio-Instruct30.327.829.3
Gemini 2.5 Pro (Teacher)72.473.973.0
  • Tai-LALM 在 TAU 上达到 49.1% 的总体准确率,超过零样本基线(42.6%)提高 6.5 个百分点。
  • 基于 VGC 的筛选与 Dual-ASR 仲裁实现 49.1% 的 TAU 准确率,较简单的未筛选数据微调的差距更小。
  • 消融分析显示若无 VGC,即使数据量很大,准确率也较低(如 Dual-ASR+AC-PPL 时 47.5%;Whisper-v3 对照 46.4%)。
  • 在 TW-Sound580K 数据集上的微调保持了核心能力(LibriSpeech WER: 3.92%),表明不存在灾难性遗忘。
  • 该方法具可扩展性:应用 TW-Sound580K 能惠及其他架构(如 Qwen2-Audio + TW-Sound580K 展现出提升),且呈现从 5K 到 580K 对的清晰扩展趋势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。