[论文解读] TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling
TW-Sound580K 引入以 Verify-Generate-Critique 进行筛选与 Dual-ASR 仲裁构建的台湾音频-文本指令数据集,使 Tai-LALM 在 TAU Benchmark 上实现本地化音频理解的 state-of-the-art。
Large Audio-Language Models (LALMs) typically struggle with localized dialectal prosody due to the scarcity of specialized corpora. We present TW-Sound580K, a Taiwanese audio-text instruction dataset developed through a Verify-Generate-Critique (VGC) protocol. This pipeline leverages Dual-ASR validation to filter 522K raw clips, subsequently expanding them into 580,000 high-fidelity instruction pairs using a teacher model. The dataset's utility is demonstrated through Tai-LALM, which fine-tunes a DeSTA 2.5-Audio-initialized backbone and incorporates a dynamic Dual-ASR Arbitration strategy to optimize transcription selection during inference. On the TAU Benchmark, Tai-LALM reaches 49.1% accuracy, marking a 6.5% absolute improvement over the zero-shot baseline (42.6% with ASR text conditioning). This confirms that integrating regional corpora with rigorous curation and dynamic arbitration significantly enhances LALM performance on localized speech.
研究动机与目标
- 解决大型音频语言模型(LALMs)在台湾方言与区域声音上的本地化差距。
- 从 522K 原始片段扩展到 580K 对,创建高保真、区域特定的指令数据集。
- 开发基于 VGC 的自动化筛选管线,以确保高质量监督并减少语义幻觉。
- 提出动态推理机制(AC-PPL 指导的 Dual-ASR 仲裁)以在部署时稳定转录。
- 通过对 Tai-LALM 进行微调并在 TAU Benchmark 上评估来证明该方法的有效性。
提出的方法
- 收集约 ~522K 的台灣本地化音频片段,并筛选至 ~456K 的验证样本(约 3,537 小时)。
- 利用教师模型对每个片段生成一个或多个指令,创建 580K 对音频-文本。
- 应用 VGC(Verify-Generate-Critique)并结合 Dual-ASR 过滤,修剪不一致性并确保有据可依的字幕。
- 使用自生成目标机制对 Tai-LALM(DeSTA 2.5-Audio 骨架,LoRA 微调)进行训练。
- 推理阶段,使用 AC-PPL 指导的 Dual-ASR 仲裁从多个 ASR 输出中选取最佳转录;若所有候选均无声标,则跳过文本。
实验结果
研究问题
- RQ1VGC 基于数据筛选是否提升区域性音频-文本监督对 LALMs 的保真性与实用性?
- RQ2动态推理仲裁(AC-PPL)是否能降低运行时幻觉并提升本地方言转录准确性?
- RQ3在 TW-Sound580K 上微调对 TAU 基准的表现是否优于零样本基线与未筛选数据?
- RQ4区域声学对齐中,数据规模对数据质量的影响如何?
- RQ5本地化训练是否在提升区域特定理解的同时保留通用音频能力?
主要发现
| 系统 | 单一 | 多样 | 总体 |
|---|---|---|---|
| Tai-LALM (Ours) | 49.4 | 48.8 | 49.1 |
| Qwen2-Audio + TW-Sound580K | 33.0 | 31.8 | 32.5 |
| DeSTA 2.5-Audio (Zero-shot) | 43.3 | 41.7 | 42.6 |
| Qwen2-Audio-Instruct | 30.3 | 27.8 | 29.3 |
| Gemini 2.5 Pro (Teacher) | 72.4 | 73.9 | 73.0 |
- Tai-LALM 在 TAU 上达到 49.1% 的总体准确率,超过零样本基线(42.6%)提高 6.5 个百分点。
- 基于 VGC 的筛选与 Dual-ASR 仲裁实现 49.1% 的 TAU 准确率,较简单的未筛选数据微调的差距更小。
- 消融分析显示若无 VGC,即使数据量很大,准确率也较低(如 Dual-ASR+AC-PPL 时 47.5%;Whisper-v3 对照 46.4%)。
- 在 TW-Sound580K 数据集上的微调保持了核心能力(LibriSpeech WER: 3.92%),表明不存在灾难性遗忘。
- 该方法具可扩展性:应用 TW-Sound580K 能惠及其他架构(如 Qwen2-Audio + TW-Sound580K 展现出提升),且呈现从 5K 到 580K 对的清晰扩展趋势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。