[论文解读] VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
VisionLLM v2 是一个端到端的通用多模态大模型,统一感知、理解与生成,通过一种新颖的超级链接机制与多个任务解码器连接,使端到端训练覆盖数百个视觉-语言任务。
We present VisionLLM v2, an end-to-end generalist multimodal large model (MLLM) that unifies visual perception, understanding, and generation within a single framework. Unlike traditional MLLMs limited to text output, VisionLLM v2 significantly broadens its application scope. It excels not only in conventional visual question answering (VQA) but also in open-ended, cross-domain vision tasks such as object localization, pose estimation, and image generation and editing. To this end, we propose a new information transmission mechanism termed "super link", as a medium to connect MLLM with task-specific decoders. It not only allows flexible transmission of task information and gradient feedback between the MLLM and multiple downstream decoders but also effectively resolves training conflicts in multi-tasking scenarios. In addition, to support the diverse range of tasks, we carefully collected and combed training data from hundreds of public vision and vision-language tasks. In this way, our model can be joint-trained end-to-end on hundreds of vision language tasks and generalize to these tasks using a set of shared parameters through different user prompts, achieving performance comparable to task-specific models. We believe VisionLLM v2 will offer a new perspective on the generalization of MLLMs.
研究动机与目标
- 旨在构建一个端到端的通用多模态大模型,处理数百个视觉和视觉-语言任务,超越文本输出。
- 引入一种鲁棒的信息传输机制,将大模型与多个特定任务解码器连接。
- 筛选并联合训练多样的视觉-语言数据,以在共享参数的前提下实现广泛的任务覆盖。
- 在感知、理解和生成任务上展示与任务特定模型或专业模型的竞争性性能。
提出的方法
- 提出一种带路由标记的超级链接机制(如 [DET], [POSE], [GEN])以及附在路由标记之后、可学习的超级链接查询,用以将任务信息传递给解码器。
- 使用四部分架构:图像编码器和区域编码器、一个大型语言模型(Vicuna-7B)、任务特定解码器(Grounding DINO、UniPose、Stable Diffusion、InstructPix2Pix),以及超级链接桥。
- 通过LLM处理文本提示并计算文本特征;通过视觉基础模型提取图像特征;融合视觉提示以获得任务的区域嵌入。
- 分三阶段训练:多模态预训练/指令微调(VisionLLM v2-Chat)、带解码器的多容量微调,以及仅解码器微调且组件固定。
- 采用三阶段训练流程,在保持强大的 VQA 能力的同时实现端到端多任务优化。
实验结果
研究问题
- RQ1单一的通用 MLLM 能否在与任务特定模型相当的性能下完成数百个视觉-语言任务?
- RQ2超级链接机制是否能够实现端到端训练并在避免任务冲突的同时实现 LLM 与多个解码器之间的有效梯度传递?
- RQ3跨多样数据集的联合训练如何影响在不同领域的感知、理解和生成任务的性能?
主要发现
- VisionLLM v2-Chat 与 VisionLLM v2 在多个基准测试中实现了与任务专业模型竞争性的性能。
- 在多模态对话基准上,VisionLLM v2-Chat 在参数规模相近的情况下超过了某些基线(如在 MMBench-EN/CN 上分别为 +9.7 和 +7.0)。
- 该模型在区域识别和视觉常识推理方面表现出色,例如 VisionLLM v2-Chat 在 VCR 上未经过微调即可达到 82.9% Q→AR。
- 在目标检测和实例分割方面,使用 Swin-T 的 VisionLLM v2 在 COCO 数据集上达到 56.3 AP_b 和 47.8 AP_m,优于若干基于 ResNet50 的方法。
- 在姿态估计方面,VisionLLM v2 与 UniPose-T 竞争性结果,并在 CrowdPose 和 AP-10K 数据集上展现出强劲性能。
- 定性结果显示产生高视觉质量的输出以及双语零-shot 生成能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。