[论文解读] Exploring Visual Prompts for Adapting Large-Scale Models
本论文研究学习一个单一视觉提示(像素空间扰动)以适应冻结的视觉和视觉-语言模型,发现 CLIP 尤为易接受且对分布漂移鲁棒,性能与线性探针相当。
We investigate the efficacy of visual prompting to adapt large-scale models in vision. Following the recent approach from prompt tuning and adversarial reprogramming, we learn a single image perturbation such that a frozen model prompted with this perturbation performs a new task. Through comprehensive experiments, we demonstrate that visual prompting is particularly effective for CLIP and robust to distribution shift, achieving performance competitive with standard linear probes. We further analyze properties of the downstream dataset, prompt design, and output transformation in regard to adaptation performance. The surprising effectiveness of visual prompting provides a new perspective on adapting pre-trained models in vision. Code is available at http://hjbahng.github.io/visual_prompting .
研究动机与目标
- 研究像素空间视觉提示是否能将冻结的预训练视觉模型适配到新任务。
- 在多种模型和15个数据集上评估基于提示的适配。
- 分析数据集特性、提示设计和输出映射如何影响性能。
- 在任务和分布漂移上,将视觉提示与微调、线性探测和文本提示进行比较。
提出的方法
- 通过对冻结模型 F 进行反向传播,学习一个单一任务特定的视觉提示 v_phi。
- 使用输入变换生成带提示的图像 x + v_phi,并通过交叉熵损失优化 phi。
- 应用两种输出映射方案:针对视觉模型的硬编码标签映射,以及用于 CLIP 的离散文本提示。
- 在所有实验中默认采用大小为 p = 30 的填充模板。
- 在 CLIP 和三种视觉模型(Instagram-pretrained ResNeXt、BiT-M、RN50)上,在 12 个数据集和分布漂移(WILDS)上进行评估。
- 与微调、线性探测和文本提示等基线进行比较。
实验结果
研究问题
- RQ1一个固定且可学习的像素空间视觉提示,能否使冻结的模型执行新的下游任务?
- RQ2在多样数据集和预训练模型上,视觉提示与线性探测和微调相比如何?
- RQ3哪些数据集属性和提示设计会影响自适应效果?
- RQ4与标准视觉模型相比,CLIP 是否对视觉提示更易适配?
- RQ5视觉提示对分布漂移的鲁棒性如何?
主要发现
| 模型 | 方法 | CIFAR100 | CIFAR10 | Flowers | Food | EuroSAT | SUN | UCF | SVHN | Pets | DTD | RESISC | CLEVR | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CLIP | TP | 63.1 | 89.0 | 61.9 | 79.8 | 40.0 | 60.0 | 59.9 | 5.1 | 85.9 | 43.0 | 42.4 | 20.2 | 54.2 |
| CLIP | VP + TP | 75.3 | 94.2 | 70.3 | 78.9 | 96.4 | 60.6 | 66.1 | 88.4 | 85.0 | 57.1 | 84.5 | 81.4 | 78.2 |
| CLIP | LP | 80.0 | 95.0 | 96.9 | 84.6 | 95.3 | 75.0 | 83.3 | 65.4 | 89.2 | 74.6 | 92.3 | 66.0 | 83.1 |
| CLIP | FT | 82.1 | 95.8 | 97.4 | 80.5 | 97.9 | 64.0 | 80.9 | 95.7 | 88.5 | 72.3 | 93.3 | 94.4 | 86.9 |
- 结合 CLIP 的视觉提示在性能上与线性探测相当,平均比文本提示高出约 24%。
- 在 12 个数据集上,CLIP 采用视觉提示(VP+TP)在大多数任务上优于 CLIP 文本提示(TP),如 EuroSAT、SVHN、CLEVR。
- 在 WILDS 基准测试中,视觉提示相对于线性探测和微调的平均分布外差距降低(分别为 4.5% 和 3.5%)。
- 提示设计很重要:填充大小 p=30 通常效果最佳;甚至单像素提示在 EuroSAT 上也可使 CLIP 提升约 3%。
- 对于没有 CLIP 的视觉模型,提示效果落后于线性探测,凸显 CLIP 对视觉提示的独特适用性。
- 针对视觉模型的硬编码输出映射可能对标签语义敏感;通过文本提示的 CLIP 输出可以利用语义对齐。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。