[论文解读] CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models
CPT 引入跨模态提示微调,通过用颜色标记图像区域并将查询改写为填充颜色的模板,使预训练视觉-语言模型在零-shot 与少-shot 的视觉定位任务中不增加新参数也能实现强大表现。在低数据场景下,相较于微调取得了较大提升,在完全监督设置中仍具竞争力。
Pre-Trained Vision-Language Models (VL-PTMs) have shown promising capabilities in grounding natural language in image data, facilitating a broad variety of cross-modal tasks. However, we note that there exists a significant gap between the objective forms of model pre-training and fine-tuning, resulting in a need for large amounts of labeled data to stimulate the visual grounding capability of VL-PTMs for downstream tasks. To address the challenge, we present Cross-modal Prompt Tuning (CPT, alternatively, Colorful Prompt Tuning), a novel paradigm for tuning VL-PTMs, which reformulates visual grounding into a fill-in-the-blank problem with color-based co-referential markers in image and text, maximally mitigating the gap. In this way, CPT enables strong few-shot and even zero-shot visual grounding capabilities of VL-PTMs. Comprehensive experimental results show that the prompt-tuned VL-PTMs outperform their fine-tuned counterparts by a large margin (e.g., 17.3% absolute accuracy improvement, and 73.8% relative standard deviation reduction on average with one shot in RefCOCO evaluation). We make the data and code for this paper publicly available at https://github.com/thunlp/CPT.
研究动机与目标
- 桥接预训练(基于 MLM 的目标)与微调(特定任务分类)在 VL-PTMs 中的差距。
- 将视觉定位表述为使用基于颜色的跨模态提示的填空任务。
- 制定一种有原则性的方法来寻找高质量的跨模态颜色提示。
- 展示强烈的零-shot 与少-shot 视觉定位能力以及具有竞争力的全监督性能。
提出的方法
- 两部分 CPT 框架:一个将图像区域着色为独特颜色的视觉子提示,以及一个将查询置于基于颜色的模板中的文本子提示。
- 通过 MLM 头恢复与目标区域对应的颜色文本来实现定位,而不引入新参数。
- 跨模态提示搜索(CPS)联合优化视觉表现和颜色文本以最大化解码分数,选择 VL-PTM 最强关联的颜色对。
- 对大量候选区域进行分组以处理多重提案,设置一个 none-token 来表示不包含目标区域的批次。
- 扩展到视觉关系检测,使用可从遮蔽位置重构关系标记的模板。
实验结果
研究问题
- RQ1跨模态颜色提示是否能够使 VL-PTMs 在最小或无需任务特定微调的情况下实现对指称表达的定位?
- RQ2应如何选择颜色外观和颜色文本以在不同数据集与任务中最大化跨模态定位性能?
- RQ3与标准微调相比,CPT 是否在零-shot 和少-shot 设置中提升数据效率与稳定性?
- RQ4是否可以在最少的架构变动下,将 CPT 扩展到相关跨模态任务,如视觉关系检测?
主要发现
- CPT 相较于强基线微调,在零-shot 和少-shot 定位精度方面有实质性提升(例如在 RefCOCO 的 one shot 情况下)。
- 使用有色分割掩码作为视觉提示比有色块产生更大提升,因为更好地与对象轮廓对齐。
- CPT 的相对标准差显著低于微调,表明在低数据场景下训练更稳定。
- 在全监督设置中,CPT 附加提示的表现与强力微调的 VL-PTMs 相当,CPT-Seg 往往表现更优。
- 跨模态提示搜索(CPS)在颜色选择上优于简单基于频次的选择,提升了平均准确率与稳定性。
- CPT 能有效扩展到视觉关系检测,提供具有竞争力的零-shot/少-shot 表现并在微调方面获得显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。