[论文解读] X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages
X-LLM 通过将图像、视频和语音转换为类似语言的表示(X2L 接口)并将其与冻结的 LLM 集成,达到 GPT-4 水平的多模态聊天性能,使用 6B 参数的 ChatGLM。
Large language models (LLMs) have demonstrated remarkable language abilities. GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities beyond previous visual language models. We attribute this to the use of more advanced LLMs compared with previous multimodal models. Unfortunately, the model architecture and training strategies of GPT-4 are unknown. To endow LLMs with multimodal capabilities, we propose X-LLM, which converts Multi-modalities (images, speech, videos) into foreign languages using X2L interfaces and inputs them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X'' denotes multi-modalities such as image, speech, and videos, and ``L'' denotes languages. X-LLM's training consists of three stages: (1) Converting Multimodal Information: The first stage trains each X2L interface to align with its respective single-modal encoder separately to convert multimodal information into languages. (2) Aligning X2L representations with the LLM: single-modal encoders are aligned with the LLM through X2L interfaces independently. (3) Integrating multiple modalities: all single-modal encoders are aligned with the LLM through X2L interfaces to integrate multimodal capabilities into the LLM. Our experiments show that X-LLM demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 84.5\% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. And we also conduct quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote the era of LLM-based speech recognition.
研究动机与目标
- 在不完全重新设计 LLM 架构的情况下,激发并实现 LLM 的多模态能力。
- 提出一个通用的 X2L 框架,将视觉和听觉信息转换为供 LLM 使用的语言嵌入。
- 证明在冻结编码器和 LLM 的同时训练轻量级接口,可以获得强大的多模态性能。
- 展示将英文图像-文本对齐参数迁移到中文的可迁移性,从而实现跨语言的多模态学习。
- 提供一个可获得、开源的中文多模态指令数据集和基准,以推动基于 LLM 的多模态研究。
提出的方法
- 通过 X2L 接口(图像接口、视频接口、语音接口)将冻结的单模态编码器(图像、视频、语音)与冻结的 LLM 对齐。
- 使用 BLIP-2 的 Q-Former 将视觉信息转化为准语言嵌入,并使用适配器使其与 LLM 尺寸匹配。
- 采用 CIF 基于的 ASR,配合 C-Former 获取逐 token 的语音嵌入,并使用 S-Adaptor 将其映射到 LLM 空间。
- 分三阶段训练:阶段1 将多模态信息转换为语言;阶段2 将 X2L 与 LLM 对齐;阶段3 整合所有模态并使用紧凑的多模态指令数据集进行微调。
- 构建一个高质量的多模态指令数据集,包含 image-text、speech-text、video-text 以及 image-text-speech 指令,用于有针对性的微调。
- 展示多模态聊天和 ASR 能力,并与现有的视觉-语言模型进行对比。
实验结果
研究问题
- RQ1多模态信息(图像、语音、视频)是否可以被有效地转换为语言样表示并与冻结的 LLM 整合?
- RQ2在构建多模态 LLM 时,将英文图像-文本对齐参数迁移到中文的影响是什么?
- RQ3分阶段训练策略(三阶段 X2L)与联合多模态训练相比,在诱导 LLM 的多模态能力方面有何差异?
- RQ4相对较小的 LLM(6B 参数)在中文任务上能在多大程度上达到 GPT-4 级别的多模态性能?
- RQ5引入简洁的多模态指令数据集是否会进一步提升多模态整合与任务性能?
主要发现
| 模型 | 对话 | 详细描述 | 复杂推理 | 全部 |
|---|---|---|---|---|
| LLaVA | 83.1 | 75.3 | 96.5 | 85.1 |
| X-LLM | 85.4 | 83.5 | 84.6 | 84.5 |
| w/ 4M | 74.8 | 83.7 | 86.5 | 81.9 |
| w/ 4M no init | 64.7 | 71.9 | 85.0 | 73.8 |
- X-LLM 在一个合成的多模态指令跟随数据集上实现了接近 GPT-4 的多模态聊天能力(相对分数 84.5%)。
- 使用 BLIP-2 的 Q-Former 参数有助于将英文图像-文本对齐有效迁移到中文。
- 在训练中增加图像-文本数据会提升性能,但过分依赖低质量数据会降低复杂推理能力。
- X-LLM 显示出强大的图像理解能力,并可扩展到视频和语音输入以应对多模态问题。
- ASR 与多模态 ASR 结果表明 X-LLM 具有竞争力,但在并非所有组件都联合训练时可能落后于基于 CIF 的 ASR 模型。
- 三阶段训练策略实现了在有限联合多模态数据下的有效多模态整合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。