[论文解读] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
InternVL 将 vision 编码器扩展到 6B 参数,并将其与一个 8B 的多语言 LLM 中间件对齐,以解决 32 个通用的视觉-语言基准,实现感知与多模态对话。
The exponential growth of large language models (LLMs) has opened up numerous possibilities for multimodal AGI systems. However, the progress in vision and vision-language foundation models, which are also critical elements of multi-modal AGI, has not kept pace with LLMs. In this work, we design a large-scale vision-language foundation model (InternVL), which scales up the vision foundation model to 6 billion parameters and progressively aligns it with the LLM, using web-scale image-text data from various sources. This model can be broadly applied to and achieve state-of-the-art performance on 32 generic visual-linguistic benchmarks including visual perception tasks such as image-level or pixel-level recognition, vision-language tasks such as zero-shot image/video classification, zero-shot image/video-text retrieval, and link with LLMs to create multi-modal dialogue systems. It has powerful visual capabilities and can be a good alternative to the ViT-22B. We hope that our research could contribute to the development of multi-modal large models. Code and models are available at https://github.com/OpenGVLab/InternVL.
研究动机与目标
- 通过将视觉骨干扩大以匹配 LLM 能力,弥合大型视觉编码器与大型语言模型之间的差距。
- 开发一个多语言、LLМ 对齐的视觉-语言桥梁,能够同时支持对比学习和生成任务。
- 利用渐进的图像-文本对齐,在网络规模噪声数据和高质量字幕数据上高效训练。
提出的方法
- 采用一个 6B 参数的视觉编码器 (InternViT-6B) 与一个 8B 参数的语言中间件 (QLLaMA) 进行配对,该中间件从多语言 LLaMA 变体初始化。
- 引入一个语言中间件,作为一个大型跨模态桥梁,能够与现成的 LLM 解码器顺畅互动。
- 应用三阶段渐进对齐训练:在网络规模数据上的视觉-语言对比学习、在高质量数据上的视觉-语言生成训练、随后在指令数据集上进行有监督微调。
- 在中间件中训练新的可学习查询和交叉注意力层,同时在某些阶段保持 LLM 解码器冻结。
- 使 InternVL 能作为独立的视觉骨架用于感知任务,或在与中间件和 LLM 解码器结合时作为视觉-语言系统。
实验结果
研究问题
- RQ1一个扩展的视觉编码器是否可以与大型语言模型对齐,缩小视觉变换器与 LLM 对齐的视觉-语言模型之间的性能差距?
- RQ2渐进的图像-文本对齐是否有效地利用网络规模的噪声数据进行对比学习,并利用细粒度数据进行生成学习?
- RQ3InternVL 架构在多样化的视觉和视觉-语言基准测试中的迁移能力如何,包括检索、字幕生成、VQA 和多模态对话?
- RQ4将 6B 视觉编码器与 8B 多语言中间件对齐,是否在标准感知和视觉-语言任务中实现具有竞争力或最先进的结果?
主要发现
- InternVL 在 32 个通用视觉-语言基准上达到最先进的性能,涵盖图像/视频分类、检索、字幕生成、VQA 和多模态对话。
- 6B 的 InternViT-6B 编码器配合 8B 的 QLLaMA 中间件,提供强大的跨模态表示,支持对比和生成任务。
- 渐进的图像-文本对齐实现了在网络规模噪声数据上的高效训练,随后用高质量的细粒度数据微调,提升稳定性和性能。
- InternVL 在 Imagenet 变体上的线性探测结果强,以及在语义分割中相对于 ViT-22B 的像素级感知能力更优。
- 与现有的 VLLMs 相比,InternVL-C 与 InternVL-G 实现了有竞争力的零-shot 图像-文本检索和跨模态性能,在多语言环境中有显著提升。
- 该模型可以与 LLaMA、Vicuna、InternLM 等大型语言模型无缝集成,并且可以作为独立的视觉骨架,或作为带有LLM 解码器的多模态系统运行。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。