[论文解读] When LLaVA Meets Objects: Token Composition for Vision-Language-Models
Mask-LLaVA 引入三粒度视觉令牌方法(CLS、汇聚补丁、基于掩模的对象令牌),实现无需再训练即可在测试时灵活减少令牌数量,在八项视觉-语言模型基准上用显著更少的视觉令牌取得具有竞争力的性能。
Current autoregressive Vision Language Models (VLMs) usually rely on a large number of visual tokens to represent images, resulting in a need for more compute especially at inference time. To address this problem, we propose Mask-LLaVA, a framework that leverages different levels of visual features to create a compact yet information-rich visual representation for autoregressive VLMs. Namely, we combine mask-based object representations together with global tokens and local patch tokens. While all tokens are used during training, it shows that the resulting model can flexibly drop especially the number of mask-based object-tokens at test time, allowing to adapt the number of tokens during inference without the need to retrain the model and without a significant drop in performance. We evaluate the proposed approach on a suite of standard benchmarks showing results competitive to current token efficient methods and comparable to the original LLaVA baseline using only a fraction of visual tokens. Our analysis demonstrates that combining multi-level features enables efficient learning with fewer tokens while allowing dynamic token selection at test time for good performance.
研究动机与目标
- 在不重新训练的情况下,激励减少自回归视觉-语言模型中的视觉令牌数量。
- 提出 Mask-LLaVA,在全局、局部和对象级视觉特征之间进行融合,形成适合输入大语言模型的紧凑表示。
- 证明规范缩放与测试时令牌剪裁在不同基准上能获得鲁棒性能。
- 展示在训练时对对象表示进行过采样如何在推理阶段提升灵活的令牌剪裁能力。
提出的方法
- 使用预训练的视觉编码器提取三种令牌类型:CLS(全局)、汇聚补丁(局部)以及基于掩模的对象令牌。
- 通过对象性检测器(边界框)和 SAM 分割生成对象掩模;利用 MaskInversion 获取对象嵌入。
- 将令牌范数标准化,使 CLS 和对象令牌与补丁令牌对齐(按补丁令牌的均值和标准差进行缩放)。
- 在将输入送入大语言模型前,通过多模态投影器融合三条令牌流,遵循 LLaVA 的训练流程(先进行视觉-语言预训练,再进行指令微调)。
- 通过基于 IoU 的掩模剪裁和可选的补丁令牌剪裁/汇聚实现测试时令牌数量的动态减少,而无需重新训练。

实验结果
研究问题
- RQ1将全局 CLS、局部补丁和对象掩模这三种粒度的视觉令牌结合起来,是否可以在不牺牲 VLM 性能的前提下减少令牌数量?
- RQ2跨令牌类型的规范缩放是否可以改善跨令牌融合并在令牌减少时提升总体性能?
- RQ3在测试时减少令牌数量时,Mask-LLaVA 在标准 VLM 基准上的表现如何?
- RQ4在训练阶段对对象表示进行过采样是否有利于推理阶段的灵活令牌剪裁?
主要发现
| Methods | RR | # Vis. tokens | VQAv2 | GQA | POPE | MME | MMBench | SciQA | Vizwiz | MM-Vet |
|---|---|---|---|---|---|---|---|---|---|---|
| LLaVA-1.5-7B | 0% | 576 | 78.5 | 62.0 | 85.9 | 1510.7 | 64.3 | 66.8 | 50.0 | 30.5 |
| LLaVA-1.5-7B† | 90% | 58 | - | 54.2 | 74.6 | 1246.8 | 53.4 | 67.1 | - | 27.0 |
| FitPrune | 90% | 58 | 62.7 | 49.9 | 53.8 | 1147.4 | 56.2 | 68.2 | 50.8 | 21.8 |
| SparseVLM | 90% | 58 | 62.9 | 48.8 | 65.8 | 1030.6 | 49.0 | 67.2 | 49.3 | 18.6 |
| FasterVLM | 90% | 58 | 71.9 | 54.9 | 75.8 | 1348.6 | 60.5 | 68.9 | 53.0 | 30.1 |
| MQT | 90% | 64 | 75.3 | 60.0 | 83.6 | 1464.3 | 63.5 | 67.0 | 51.5 | 28.9 |
| Voco-LLaMa | 88% | 64 | 75.4 | 60.4 | - | 60.5 | - | - | - | - |
| Mask-LLaVA (ours) | 90% | 57 | 74.8 | 60.6 | 83.7 | 1415.0 | 63.1 | 68.8 | 51.8 | 24.9 |
| LLaVA-1.5-7B† | 95% | 29 | - | 51.0 | 65.9 | 1141.1 | 45.7 | 67.1 | - | 23.5 |
| FitPrune | 95% | 29 | 52.3 | 43.6 | 31.1 | 855.2 | 39.6 | 68.3 | 48.6 | 18.0 |
| FasterVLM | 95% | 29 | 66.7 | 51.5 | 67.2 | 1254.8 | 58.5 | 69.5 | 52.6 | 27.5 |
| MQT | 95% | 36 | 73.7 | 58.8 | 81.9 | 1416.3 | 63.4 | 66.8 | 51.0 | 27.8 |
| M3 | 95% | 36 | 76.9 | 60.3 | 85.5 | 1417.2 | 64.8 | 68.2 | 52.8 | 25.4 |
| Voco-LLaMa | 95% | 32 | 75.3 | 60.2 | - | 59.4 | - | - | - | - |
| Mask-LLaVA (ours) | 95% | 15 | 71.5 | 58.5 | 82.1 | 1395.8 | 62.1 | 68.4 | 52.8 | 21.9 |
- Mask-LLaVA 在八项基准上以极少的视觉令牌实现了具有竞争力的性能,在高减少率下通常优于其他更节省令牌的方法。
- 在 57 个令牌的设置(1 个 CLS + 36 个补丁 + 20 个对象令牌)甚至 42/29 令牌配置下也能保持强劲结果,显示出鲁棒的令牌削减能力。
- 将 CLS、补丁和对象令牌结合起来的效果优于仅使用补丁令牌,CLS 在某些任务上贡献了价值,对象令牌在其他任务上提供帮助。
- 将 CLS 与对象令牌按照补丁令牌统计进行归一化的规范缩放提升了整体性能,逐图像进行令牌归一化获得最佳结果。
- 基于掩模的令牌剪裁(IoU 为基础)与补丁令牌剪裁/汇聚实现了推理阶段对令牌数量的动态调控,无需重新训练。
- 在若干数据集(特别是 POPE 与 MME)上,在高令牌减少下,Mask-LLaVA 获得接近或达到最先进水平的增益,同时在 VQAv2、GQA、VizWiz、MM-Vet 等数据集上保持竞争力。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。