QUICK REVIEW

[论文解读] CogVLM: Visual Expert for Pretrained Language Models

Weihan Wang, Qingsong Lv|arXiv (Cornell University)|Nov 6, 2023

Multimodal Machine Learning Applications被引用 76

一句话总结

CogVLM 在冻结的预训练语言模型上引入可训练的视觉专家，实现视觉-语言特征的深度融合，在17个跨模态基准上达到最先进的结果，基底为 17B 参数。

ABSTRACT

We introduce CogVLM, a powerful open-source visual language foundation model. Different from the popular shallow alignment method which maps image features into the input space of language model, CogVLM bridges the gap between the frozen pretrained language model and image encoder by a trainable visual expert module in the attention and FFN layers. As a result, CogVLM enables deep fusion of vision language features without sacrificing any performance on NLP tasks. CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA and TDIUC, and ranks the 2nd on VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassing or matching PaLI-X 55B. Codes and checkpoints are available at https://github.com/THUDM/CogVLM.

研究动机与目标

推动需要比现有VLMs中的浅层对齐更深的视觉-语言融合。
提出一个视觉专家模块，与冻结的LLM互作以在不牺牲NLP能力的情况下实现深度多模态融合。
证明通过可训练的视觉专家实现的深度融合在标准多模态基准上具有竞争力或优越的性能。
展示CogVLM权重和训练数据的开源可用性，以促进视觉理解的研究与应用。

提出的方法

在语言模型的每一Transformer层中添加一个可训练的视觉专家模块，使用专门的QKV和MLP路径来处理与文本特征共存的图像特征。
通过MLP适配器将ViT输出映射到语言模型特征空间，并为图像令牌共享位置ID以管理长图像序列。
在所有注意力操作中保持GPT风格的因果掩码，包括图像-文本注意力，以保留自回归生成。
在大规模图像-文本数据（LAION-2B和COYO-700M派生）上对CogVLM-17B进行两阶段预训练：先仅图像描述生成损失，然后在混合描述和指称表达定位（REC）目标下进行，偶尔转向视觉定位任务。
使用一个视觉定位数据集（4000万张图片及名词-框注释）在预训练期间强化区域-对象对齐。
通过两个通用模型进行对齐微调：CogVLM-Chat用于自然语言交互，CogVLM-Grounding用于边界框定位任务。
消融研究（视觉专家位置、初始化、注意力掩码、EMA）以验证设计选择并确定对任务性能的影响。

实验结果

研究问题

RQ1一个可在每一LLM层中实现的可训练视觉专家是否能够在不损害纯NLP能力的前提下实现更深的视觉与语言特征融合？
RQ2深度融合与浅层对齐方法在多样化的多模态任务（描述、VQA、LVLM、定位）中的比较如何？
RQ3影响多模态预训练有效性的关键因素（视觉编码器规模、注意力掩码、自监督图像损失、EMA）有哪些？
RQ4CogVLM在标准图像描述、VQA、LVLM基准及视觉定位数据集上的性能如何与最先进模型相比？
RQ5数据集规模、预训练数据组成和定位监督对多模态泛化有何影响？

主要发现

CogVLM-17B在17个跨模态基准上达到最先进或具有竞争力的表现，包括图像描述、VQA、LVLM和视觉定位任务。
通过一个可训练的视觉专家实现的深度融合显著优于浅层融合基线（例如InstructBLIP、MiniGPT-4）在多项基准上的表现。
该模型在VQA、TextVQA、OCRVQA、ScienceQA，以及LVLM基准如MM-Vet、MMBench、SEED-Bench、LLaVA-Bench、POPE、MMMU和MathVista上表现强劲。
视觉定位结果在若干分割上达到SOTA水平（如RefCOCO的val/test子集、RefCOCO+、RefCOCOg），凸显区域-短语对齐的鲁棒性。
消融研究表明用LLM权重初始化视觉专家、使用因果视觉注意力掩码、以及包含与图像相关的自监督对性能有积极作用。
CogVLM 提供开源权重和在SFT中使用的数据集，使研究人员能够在可开放的视觉-语言理解基础上进行构建。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。