QUICK REVIEW

[论文解读] TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

Hao-Hui Xie, Ho-Lam Chung|arXiv (Cornell University)|Mar 5, 2026

Speech Recognition and Synthesis被引用 0

一句话总结

TW-Sound580K 引入以 Verify-Generate-Critique 进行筛选与 Dual-ASR 仲裁构建的台湾音频-文本指令数据集，使 Tai-LALM 在 TAU Benchmark 上实现本地化音频理解的 state-of-the-art。

ABSTRACT

Large Audio-Language Models (LALMs) typically struggle with localized dialectal prosody due to the scarcity of specialized corpora. We present TW-Sound580K, a Taiwanese audio-text instruction dataset developed through a Verify-Generate-Critique (VGC) protocol. This pipeline leverages Dual-ASR validation to filter 522K raw clips, subsequently expanding them into 580,000 high-fidelity instruction pairs using a teacher model. The dataset's utility is demonstrated through Tai-LALM, which fine-tunes a DeSTA 2.5-Audio-initialized backbone and incorporates a dynamic Dual-ASR Arbitration strategy to optimize transcription selection during inference. On the TAU Benchmark, Tai-LALM reaches 49.1% accuracy, marking a 6.5% absolute improvement over the zero-shot baseline (42.6% with ASR text conditioning). This confirms that integrating regional corpora with rigorous curation and dynamic arbitration significantly enhances LALM performance on localized speech.

研究动机与目标

解决大型音频语言模型（LALMs）在台湾方言与区域声音上的本地化差距。
从 522K 原始片段扩展到 580K 对，创建高保真、区域特定的指令数据集。
开发基于 VGC 的自动化筛选管线，以确保高质量监督并减少语义幻觉。
提出动态推理机制（AC-PPL 指导的 Dual-ASR 仲裁）以在部署时稳定转录。
通过对 Tai-LALM 进行微调并在 TAU Benchmark 上评估来证明该方法的有效性。

提出的方法

收集约 ~522K 的台灣本地化音频片段，并筛选至 ~456K 的验证样本（约 3,537 小时）。
利用教师模型对每个片段生成一个或多个指令，创建 580K 对音频-文本。
应用 VGC（Verify-Generate-Critique）并结合 Dual-ASR 过滤，修剪不一致性并确保有据可依的字幕。
使用自生成目标机制对 Tai-LALM（DeSTA 2.5-Audio 骨架，LoRA 微调）进行训练。
推理阶段，使用 AC-PPL 指导的 Dual-ASR 仲裁从多个 ASR 输出中选取最佳转录；若所有候选均无声标，则跳过文本。

实验结果

研究问题

RQ1VGC 基于数据筛选是否提升区域性音频-文本监督对 LALMs 的保真性与实用性？
RQ2动态推理仲裁（AC-PPL）是否能降低运行时幻觉并提升本地方言转录准确性？
RQ3在 TW-Sound580K 上微调对 TAU 基准的表现是否优于零样本基线与未筛选数据？
RQ4区域声学对齐中，数据规模对数据质量的影响如何？
RQ5本地化训练是否在提升区域特定理解的同时保留通用音频能力？

主要发现

系统	单一	多样	总体
Tai-LALM (Ours)	49.4	48.8	49.1
Qwen2-Audio + TW-Sound580K	33.0	31.8	32.5
DeSTA 2.5-Audio (Zero-shot)	43.3	41.7	42.6
Qwen2-Audio-Instruct	30.3	27.8	29.3
Gemini 2.5 Pro (Teacher)	72.4	73.9	73.0

Tai-LALM 在 TAU 上达到 49.1% 的总体准确率，超过零样本基线（42.6%）提高 6.5 个百分点。
基于 VGC 的筛选与 Dual-ASR 仲裁实现 49.1% 的 TAU 准确率，较简单的未筛选数据微调的差距更小。
消融分析显示若无 VGC，即使数据量很大，准确率也较低（如 Dual-ASR+AC-PPL 时 47.5%；Whisper-v3 对照 46.4%）。
在 TW-Sound580K 数据集上的微调保持了核心能力（LibriSpeech WER: 3.92%），表明不存在灾难性遗忘。
该方法具可扩展性：应用 TW-Sound580K 能惠及其他架构（如 Qwen2-Audio + TW-Sound580K 展现出提升），且呈现从 5K 到 580K 对的清晰扩展趋势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。