[论文解读] SALMONN: Towards Generic Hearing Abilities for Large Language Models
SALMONN 是一个将双重听觉编码器与大型语言模型结合的语音-音频-语言-音乐开放神经网络,能够感知并推理一般音频输入,具备训练和新兴跨模态能力。
Hearing is arguably an essential ability of artificial intelligence (AI) agents in the physical world, which refers to the perception and understanding of general auditory information consisting of at least three types of sounds: speech, audio events, and music. In this paper, we propose SALMONN, a speech audio language music open neural network, built by integrating a pre-trained text-based large language model (LLM) with speech and audio encoders into a single multimodal model. SALMONN enables the LLM to directly process and understand general audio inputs and achieve competitive performances on a number of speech and audio tasks used in training, such as automatic speech recognition and translation, auditory-information-based question answering, emotion recognition, speaker verification, and music and audio captioning etc. SALMONN also has a diverse set of emergent abilities unseen in the training, which includes but is not limited to speech translation to untrained languages, speech-based slot filling, spoken-query-based question answering, audio-based storytelling, and speech audio co-reasoning etc. The presence of cross-modal emergent abilities is studied, and a novel few-shot activation tuning approach is proposed to activate such abilities. To our knowledge, SALMONN is the first model of its type and can be regarded as a step towards AI with generic hearing abilities. The source code, model checkpoints and data are available at https://github.com/bytedance/SALMONN.
研究动机与目标
- 推动对能够感知和理解除语音以外的一般听觉信息的 AI 的需求(语音、音频事件和音乐)。
- 提出一个单一的多模态 LLM SALMONN,将语音和音频编码器与 LLM 融合,以处理多样的音频任务。
- 研究跨模态涌现能力以及如何通过少量示例的激活微调阶段来激活它们。
提出的方法
- 使用双重听觉编码器,通过将 Whisper(语音)和 BEATs(非语音音频)编码器整合到一个模型中来实现。
- 使用一个窗口级的 Q-Former 作为连接模块,产生与 LLM 输入空间对齐的增强音频令牌。
- 通过 LoRA 适配器进行微调,使增强输入空间与 LLM 输出空间对齐,同时保持 LLM 和编码器冻结。
- 在语音识别和音频字幕数据上进行预训练,以建立音频和文本之间的跨模态对齐。
- 在一系列语音、音频和音乐任务上进行指令微调,以塑造特定任务的行为。
- 引入激活微调阶段,在降低 LoRA 缩放的同时唤醒跨模态涌现能力,从而避免过拟合训练任务。
实验结果
研究问题
- RQ1一个模型是否能够感知并理解由语音、音频事件和音乐组成的一般音频输入?
- RQ2这样的模型是否存在跨模态涌现能力,是否可以通过轻量级训练技术激活?
- RQ3激活微调如何影响对训练任务与未训练跨模态任务的性能?
- RQ4需要哪些数据、提示和架构选择来使音频编码与 LLM 对齐以实现端到端推理?
主要发现
- SALMONN 在训练任务(如自动语音识别、翻译和音频字幕)上取得了有竞争力的结果。
- 激活微调使得出现基于音频的叙事和语音-音频协同推理等涌现能力成为可能,并在 Level-2 和 Level-3 任务上表现提升。
- 在测试时放弃 LoRA 缩放因子可以以少量示例的方式揭示跨模态推理能力。
- 激活微调在挑战性任务(如 SQQA、Story、SAC)上的跟随率显著提高。
- 模型在训练任务上保持强劲性能,同时在激活微调后获得新的涌现能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。