QUICK REVIEW

[论文解读] Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models

Chi Chen, Ruoyu Qin|arXiv (Cornell University)|Aug 25, 2023

Multimodal Machine Learning Applications被引用 10

一句话总结

PVIT 在 MLLMs 中新增区域级视觉编码器，并引入区域为中心的指令-数据生成方案，实现更细粒度的图像理解和更优越的多模态推理。

ABSTRACT

Recently, Multimodal Large Language Models (MLLMs) that enable Large Language Models (LLMs) to interpret images through visual instruction tuning have achieved significant success. However, existing visual instruction tuning methods only utilize image-language instruction data to align the language and image modalities, lacking a more fine-grained cross-modal alignment. In this paper, we propose Position-enhanced Visual Instruction Tuning (PVIT), which extends the functionality of MLLMs by integrating an additional region-level vision encoder. This integration promotes a more detailed comprehension of images for the MLLM. In addition, to efficiently achieve a fine-grained alignment between the vision modules and the LLM, we design multiple data generation strategies to construct an image-region-language instruction dataset. Finally, we present both quantitative experiments and qualitative analysis that demonstrate the superiority of the proposed model. Code and data will be released at https://github.com/PVIT-official/PVIT.

研究动机与目标

实现超越图像级监督的细粒度跨模态对齐在 MLLMs 中的动机。
通过额外的区域编码器为 MLLMs 引入区域级理解。
发展数据生成策略以创建区域级的图像-区域-语言指令。
在对象识别和多模态推理上评估 PVIT，并进行以人为中心的 FineEval 评估。

提出的方法

将区域级视觉编码器（基于 RegionCLIP）与 LLM 集成，使用图像区域作为输入，与图像和文本一同输入。
采用两阶段训练：阶段1 通过线性投影将区域特征对齐到 LLM 的嵌入，阶段2 端到端微调以实现区域级指令。
通过 (a) 将 GQA/VCR 数据集转换成区域级指令数据，(b) 使用 ChatGPT 进行任务特定数据生成，(c) 结合丰富描述和定位标注进行通用数据生成来构建区域级指令数据。
使用冻结的图像/区域编码器和可训练的 LLM 及投影层进行训练；随后在区域级指令上进行进一步微调。
利用区域级监督来提升对象-区域理解和空间推理。

实验结果

研究问题

RQ1区域级视觉编码器是否能够在不干扰现有能力的情况下有效融入 MLLMs？
RQ2区域级指令数据是否提升了对细粒度空间理解和基于区域的问题回答？
RQ3哪些数据生成策略能够为训练 PVIT 产出多样且高质量的区域级指令？
RQ4与仅基于图像级基线相比，PVIT 在识别和多模态推理任务上的表现如何？

主要发现

方法	COCO	GQA
LLaVA [16]	40.04	46.82
Shikra [3]	53.91	54.81
GPT4RoI [34]	64.01	52.64
PVIT (Ours)	64.53	55.77

PVIT 在多模态推理（GQA 上为 55.77）中达到对比模型中的最佳 GQA 准确率。
PVIT 在多模态推理（GQA）上优于基线 LLaVA、Shikra 和 GPT4RoI，在 COCO 上实现具有竞争力的对象识别。
人工评估（FineEval）显示 PVIT 在细粒度空间指令遵从方面始终高于基线，只有在对象计数上相对于 Shikra 有小幅劣势。
消融研究表明区域表示（_region features_）相较于文本区域坐标显著提升性能。
两阶段训练在不彻底改动预训练编码器的情况下有效将区域特征对齐到 LLM。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。