QUICK REVIEW

[论文解读] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Zhe Chen, Jiannan Wu|arXiv (Cornell University)|Dec 21, 2023

Multimodal Machine Learning Applications被引用 16

一句话总结

InternVL 将 vision 编码器扩展到 6B 参数，并将其与一个 8B 的多语言 LLM 中间件对齐，以解决 32 个通用的视觉-语言基准，实现感知与多模态对话。

ABSTRACT

The exponential growth of large language models (LLMs) has opened up numerous possibilities for multimodal AGI systems. However, the progress in vision and vision-language foundation models, which are also critical elements of multi-modal AGI, has not kept pace with LLMs. In this work, we design a large-scale vision-language foundation model (InternVL), which scales up the vision foundation model to 6 billion parameters and progressively aligns it with the LLM, using web-scale image-text data from various sources. This model can be broadly applied to and achieve state-of-the-art performance on 32 generic visual-linguistic benchmarks including visual perception tasks such as image-level or pixel-level recognition, vision-language tasks such as zero-shot image/video classification, zero-shot image/video-text retrieval, and link with LLMs to create multi-modal dialogue systems. It has powerful visual capabilities and can be a good alternative to the ViT-22B. We hope that our research could contribute to the development of multi-modal large models. Code and models are available at https://github.com/OpenGVLab/InternVL.

研究动机与目标

通过将视觉骨干扩大以匹配 LLM 能力，弥合大型视觉编码器与大型语言模型之间的差距。
开发一个多语言、LLМ 对齐的视觉-语言桥梁，能够同时支持对比学习和生成任务。
利用渐进的图像-文本对齐，在网络规模噪声数据和高质量字幕数据上高效训练。

提出的方法

采用一个 6B 参数的视觉编码器 (InternViT-6B) 与一个 8B 参数的语言中间件 (QLLaMA) 进行配对，该中间件从多语言 LLaMA 变体初始化。
引入一个语言中间件，作为一个大型跨模态桥梁，能够与现成的 LLM 解码器顺畅互动。
应用三阶段渐进对齐训练：在网络规模数据上的视觉-语言对比学习、在高质量数据上的视觉-语言生成训练、随后在指令数据集上进行有监督微调。
在中间件中训练新的可学习查询和交叉注意力层，同时在某些阶段保持 LLM 解码器冻结。
使 InternVL 能作为独立的视觉骨架用于感知任务，或在与中间件和 LLM 解码器结合时作为视觉-语言系统。

实验结果

研究问题

RQ1一个扩展的视觉编码器是否可以与大型语言模型对齐，缩小视觉变换器与 LLM 对齐的视觉-语言模型之间的性能差距？
RQ2渐进的图像-文本对齐是否有效地利用网络规模的噪声数据进行对比学习，并利用细粒度数据进行生成学习？
RQ3InternVL 架构在多样化的视觉和视觉-语言基准测试中的迁移能力如何，包括检索、字幕生成、VQA 和多模态对话？
RQ4将 6B 视觉编码器与 8B 多语言中间件对齐，是否在标准感知和视觉-语言任务中实现具有竞争力或最先进的结果？

主要发现

InternVL 在 32 个通用视觉-语言基准上达到最先进的性能，涵盖图像/视频分类、检索、字幕生成、VQA 和多模态对话。
6B 的 InternViT-6B 编码器配合 8B 的 QLLaMA 中间件，提供强大的跨模态表示，支持对比和生成任务。
渐进的图像-文本对齐实现了在网络规模噪声数据上的高效训练，随后用高质量的细粒度数据微调，提升稳定性和性能。
InternVL 在 Imagenet 变体上的线性探测结果强，以及在语义分割中相对于 ViT-22B 的像素级感知能力更优。
与现有的 VLLMs 相比，InternVL-C 与 InternVL-G 实现了有竞争力的零-shot 图像-文本检索和跨模态性能，在多语言环境中有显著提升。
该模型可以与 LLaMA、Vicuna、InternLM 等大型语言模型无缝集成，并且可以作为独立的视觉骨架，或作为带有LLM 解码器的多模态系统运行。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。