QUICK REVIEW

[论文解读] Unified Vision and Language Prompt Learning

Yuhang Zang, Wei Li|arXiv (Cornell University)|Oct 13, 2022

Domain Adaptation and Few-Shot Learning被引用 55

一句话总结

提出统一提示微调（UPT），在视觉-语言模型中同时微调文本与视觉提示，在 CLIP 类设置的少-shot和领域泛化任务上优于单模态提示微调。

ABSTRACT

Prompt tuning, a parameter- and data-efficient transfer learning paradigm that tunes only a small number of parameters in a model's input space, has become a trend in the vision community since the emergence of large vision-language models like CLIP. We present a systematic study on two representative prompt tuning methods, namely text prompt tuning and visual prompt tuning. A major finding is that none of the unimodal prompt tuning methods performs consistently well: text prompt tuning fails on data with high intra-class visual variances while visual prompt tuning cannot handle low inter-class variances. To combine the best from both worlds, we propose a simple approach called Unified Prompt Tuning (UPT), which essentially learns a tiny neural network to jointly optimize prompts across different modalities. Extensive experiments on over 11 vision datasets show that UPT achieves a better trade-off than the unimodal counterparts on few-shot learning benchmarks, as well as on domain generalization benchmarks. Code and models will be released to facilitate future research.

研究动机与目标

评估在像 CLIP 这样的VL模型中，现有单模态提示微调（文本或视觉）的局限性。
开发一种多模态提示学习方法，联合优化文本和视觉模态的提示。
证明统一提示在多样数据集上能在少-shot和领域泛化性能上带来更好表现。

提出的方法

使用类内视觉方差和类间文本方差指标分析文本提示微调（CoOp）和视觉提示微调（VPT）的局限性。
引入统一提示微调（UPT）：学习一个小型多模态提示U，由一个轻量级 Transformer 层转化，生成文本和图像编码器的特定模态提示。
冻结图像和文本编码器；仅优化U和 Transformer θ。
将转化后的提示注入文本和图像编码器的多层中，以联合学习的方式插入。
可选地提供逐层提示U^i，并将转化提示分割为文本和视觉部分以插入。
证明自注意力为基础的U转化能带来更好的跨模态交互与对齐。

实验结果

研究问题

RQ1单模态提示微调（文本或视觉）是否能在多样数据集上持续提升VL模型性能？
RQ2相较于单模态提示，统一的多模态提示是否更好地弥合文本分类器与视觉特征空间之间的差距？
RQ3与CoOp和VPT相比，统一提示学习在少-shot学习和领域泛化上的表现如何？
RQ4哪些设计选择（如共享提示、MLP与 Transformer）会影响多模态提示的有效性？

主要发现

UPT在11个数据集的少-shot设置中普遍优于单模态提示微调（CoOp和 VPT）。
UPT在同类内的少-shot准确性提升相对于 CoOp 大约在 0.48 到 3.19 个百分点，取决于 shot 数（16-shot 显著提升）。
UPT 相比 VPT-deep 在不同的 shot 时的提升大约为 0.89 到 2.70 个百分点。
在领域泛化中，UPT 与 CoCoOp 的表现竞争力，且在若干目标数据集上往往是最佳，表现出强健的OOD性能。
消融研究显示，自注意力为基础的统一提示转化优于简单的联合训练或共享提示；基于MLP的提示可以有竞争力，但通常不如 Transformer 方法。
定性注意力可视化显示 UPT 能产生提示与图像标记之间更强的自注意力，暗示更好的跨模态交互。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。