[论文解读] Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
Video-LLaVA 在投影前将图像和视频表示统一到一个共享的视觉特征空间,从而使单个 LVLM 能理解两种模态,并超越若干面向图像与视频的基线。
The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos. We aim for this work to provide modest insights into the multi-modal inputs for the LLM. Code address: \href{https://github.com/PKU-YuanGroup/Video-LLaVA}
研究动机与目标
- 使单个 LVLM 能以统一的视觉表示同时处理图像与视频的动机。
- 提出使用 LanguageBind 编码器在投影前进行对齐,将模态预先对齐到语言特征空间。
- 在统一框架内实现图像–视频的联合训练,以提升多模态推理能力。
- 证明统一的视觉表示在广泛的图像与视频基准上提升性能。
提出的方法
- 使用 LanguageBind 编码器将图像和视频映射到共享的语言特征空间(统一的视觉表示)。
- 从预对齐模型初始化编码器(图像使用 OpenCLIP,视频使用 VIDAL-10M),以实现涌现对齐。
- 应用共享投影层将统一视觉表示映射到 LLM 输入。
- 在图像与视频数据上进行两阶段的联合训练:视觉理解与指令微调。
- 以 Vicuna-7B 作为 LLM 主干,配备两层投影头,图像输入为 224x224(8 帧视频采样)。
- 采用自回归目标来最大化 p(X_A | X_V, X_T),并通过多轮对话进行指令微调。
实验结果
研究问题
- RQ1在投影到统一视觉空间之前对图像和视频进行对齐,是否能改善对 LLMs 的多模态交互学习?
- RQ2在统一表示中对图像与视频的联合训练是否能为两种模态带来互惠的好处?
- RQ3相较于特定模态和其他 LVLMs,Video-LLaVA 在多样化的图像与视频基准上的表现如何?
主要发现
- Video-LLaVA 在 9 个图像基准和 4 个视频问答数据集上取得较强结果,常常优于专业模型。
- Video-LLaVA 分别超越 Video-ChatGPT 在 MSRVTT、MSVD、TGIF、ActivityNet 上的 5.8%、9.9%、18.6% 和 10.1%。
- 通过对齐在投影前实现的统一视觉表示,在图像和视频任务上比分离表示获得更大收益。
- 图像与视频的联合训练为两种模态带来互相提升,提升图像推理(如 VisWiz、LLaVA-Bench)和视频问答(MSVD、MSRVTT、TGIF、ActivityNet)。
- Video-LLaVA 在基准工具包(如 MMBench、LLaVA-Bench、MM-Vet)上仍具竞争力,甚至优于更大规模的 LVLMs。
- 消融研究表明,alignment-before-projection 和 joint training 是性能提升的关键因素。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。