[论文解读] Listen, Think, and Understand
LTU 是一个多模态音频基础模型,结合强大的音频感知编码器和开源大型语言模型,以实现音频理解和新兴的音频推理,基于一个包含大量音频问答对的 OpenAQA-5M 数据集进行训练。
The ability of artificial intelligence (AI) systems to perceive and comprehend audio signals is crucial for many applications. Although significant progress has been made in this area since the development of AudioSet, most existing models are designed to map audio inputs to pre-defined, discrete sound label sets. In contrast, humans possess the ability to not only classify sounds into general categories, but also to listen to the finer details of the sounds, explain the reason for the predictions, think about what the sound infers, and understand the scene and what action needs to be taken, if any. Such capabilities beyond perception are not yet present in existing audio models. On the other hand, modern large language models (LLMs) exhibit emerging reasoning ability but they lack audio perception capabilities. Therefore, we ask the question: can we build a model that has both audio perception and a reasoning ability? In this paper, we propose a new audio foundation model, called LTU (Listen, Think, and Understand). To train LTU, we created a new OpenAQA-5M dataset consisting of 1.9 million closed-ended and 3.7 million open-ended, diverse (audio, question, answer) tuples, and have used an autoregressive training framework with a perception-to-understanding curriculum. LTU demonstrates strong performance and generalization ability on conventional audio tasks such as classification and captioning. More importantly, it exhibits emerging audio reasoning and comprehension abilities that are absent in existing audio models. To the best of our knowledge, LTU is one of the first multimodal large language models that focus on general audio (rather than just speech) understanding.
研究动机与目标
- 促成构建AI系统,超越音频感知,能够对声音与场景进行推理。
- 将高性能音频感知模块与大型语言模型整合,实现统一的音频理解与推理。
- 创建一个大型、多样化的音频问答数据集(OpenAQA-5M),用于训练一个与音频相关指令遵循模型。
- 展示 LTU 能同时完成传统音频任务(分类、字幕)和新兴的音频推理。
- 提供一个感知到理解的训练课程,指导从感知到推理的学习。
提出的方法
- 使用 Audio Spectrogram Transformer (AST) 作为音频编码器,在 AudioSet-2M 上微调,投影到 4096 维以匹配 LLaMA 的嵌入。
- 对 LLaMA 的自注意力层附加 LoRA 适配器,以实现以较小参数预算(4.2M)进行高效微调。
- 将 32 个音频嵌入与文本嵶嶈入结合,形成 LTU 输入以供基于 LLaMA 的语言模型使用。
- 通过感知到理解的课程在多个阶段进行 LTU 的训练,从封闭式任务开始,逐步加入开放式问答。
- 通过对八个数据集重新标注音频并使用 GPT 辅助的音频指令生成(AIG)生成 OpenAQA-5M,产生多样化的音频问答对。
- 在过去标记和参考音频条件下,使用下一个词预测进行训练优化;使用生成设置(温度 0.1、TopK 500、TopP 0.95)。

实验结果
研究问题
- RQ1单一模型是否能够同时感知一般音频事件并对音频场景进行推理?
- RQ2将音频编码器与LLM整合,是否能够实现具有事实正确性和指令遵循能力的开放式音频问答?
- RQ3训练一个以音频为中心的多模态LLM,需要哪些数据和课程表?
- RQ4LTU 在传统音频任务与新兴音频推理任务上的表现如何?
- RQ5LTU 是否能够避免幻觉,在适当情况下拒绝无法回答的问题?
主要发现
- LTU 在 8 项分类基准上优于传统音频文本 CLAP,平均相对提升为 23.6%。
- LTU 在 AudioCaps 与 Clotho 的 SPICE 指标上与最先进的字幕模型相竞争,尽管其训练数据更加多样化。
- LTU 展示出新兴的音频推理与理解能力,包括开放式问答,指令遵循率约为 82.9% 的事实正确性经人工评估确认。
- LTU 在推理时直接输出文本标签,而无需在推理时设定的标签集,且对未见数据集和任务具有较强的泛化能力。
- 感知到理解的课程至关重要;移除它会显著降低性能,而冻结的 LLaMA 加 LoRA 适配器能够实现有效的音频定位而不发生灾难性遗忘。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。