QUICK REVIEW

[论文解读] Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

Manli Shu, Weili Nie|arXiv (Cornell University)|Sep 15, 2022

Multimodal Machine Learning Applications被引用 112

一句话总结

本文提出 Test-Time Prompt Tuning (TPT)，在单个测试样本上对提示进行优化，以提升视觉-语言模型（如 CLIP）的零-shot 泛化能力，方法是在增广视图上通过熵最小化并结合基于置信度的过滤来进行。

ABSTRACT

Pre-trained vision-language models (e.g., CLIP) have shown promising zero-shot generalization in many downstream tasks with properly designed text prompts. Instead of relying on hand-engineered prompts, recent works learn prompts using the training data from downstream tasks. While effective, training on domain-specific data reduces a model's generalization capability to unseen new domains. In this work, we propose test-time prompt tuning (TPT), a method that can learn adaptive prompts on the fly with a single test sample. For image classification, TPT optimizes the prompt by minimizing the entropy with confidence selection so that the model has consistent predictions across different augmented views of each test sample. In evaluating generalization to natural distribution shifts, TPT improves the zero-shot top-1 accuracy of CLIP by 3.6% on average, surpassing previous prompt tuning approaches that require additional task-specific training data. In evaluating cross-dataset generalization with unseen categories, TPT performs on par with the state-of-the-art approaches that use additional training data. Project page: https://azshue.github.io/TPT.

研究动机与目标

在不增加额外训练数据或标注的情况下提升 CLIP 的零-shot 泛化能力。
开发一个测试时目标，令单个测试图像的增广视图之间的预测对齐。
引入置信度选择，在提示微调过程中移除嘈杂的增广。
在分布偏移下的图像分类以及上下文相关的视觉推理任务上展示 TPT。
表明 TPT 在多种设置下可与使用训练数据的最先进提示微调方法相匹配或超越。

提出的方法

将提示表示为可学习的文本嵌入，并在测试时对其进行优化。
生成测试图像的 N 个增广视图，并最小化跨视图的预测边际熵。
通过基于百分位阈值丢弃具有高自熵的增广视图来应用置信度选择。
对于 Bongard-HOI 视觉推理，从支持图像中学习提示和二元标签标记，而不使用查询注释。
TPT 使用 CLIP 框架，聚焦于仅更新文本提示，以保留零-shot 能力。
在单个测试样本上使用 AdamW 进行一步提示优化。

实验结果

研究问题

RQ1在自然分布偏移下，测试时提示微调是否能在没有任何训练数据的情况下提升零-shot CLIP 的性能？
RQ2在跨数据集泛化和未见类别任务上，TPT 相对于少-shot 提示微调方法有何差异？
RQ3在不使用训练数据的情况下，TPT 能否有效扩展到像 Bongard-HOI 这样的上下文相关的视觉推理任务？
RQ4基于置信度的视图选择对提示微调效果的影响如何？

主要发现

方法	ImageNet	ImageNet-A	ImageNet-V2	ImageNet-R	ImageNet-Sketch	Average	OOD Average
CLIP-RN50	58.16	21.83	51.41	56.15	33.37	44.18	40.69
Ensemble	59.81	23.24	52.91	60.72	35.48	46.43	43.09
CoOp	63.33	23.06	55.40	56.60	34.67	46.61	42.43
CoCoOp	62.81	23.32	55.72	57.74	34.48	46.81	42.82
TPT	60.74	26.67	54.70	59.11	35.09	47.26	43.89
TPT + CoOp	64.73	30.32	57.83	58.99	35.86	49.55	45.75
TPT + CoCoOp	62.93	27.40	56.60	59.88	35.43	48.45	44.83
CLIP-ViT-B/16	66.73	47.87	60.86	73.98	46.09	59.11	57.20
Ensemble	68.34	49.89	61.88	77.65	48.24	61.20	59.42
CoOp	71.51	49.71	64.20	75.21	47.99	61.72	59.28
CoCoOp	71.02	50.63	64.07	76.18	48.75	62.13	59.91
TPT	68.98	54.77	63.45	77.06	47.94	62.44	60.81
TPT + CoOp	73.61	57.95	66.83	77.27	49.29	64.99	62.83
TPT + CoCoOp	71.07	58.47	64.85	78.65	48.47	64.30	62.61

与手工设计的提示相比，TPT 在自然分布偏移上的平均零-shot top-1 准确率提升了 3.6%。
在若干设置中，TPT 与需下游训练数据的最先进提示微调方法相匹配或超越。
在 ImageNet-A 上相对于手工设计的提示，TPT 的提升高达 6.9%。
在跨数据集泛化中，TPT 在不使用训练数据的情况下达到与少 Shot 方法相当的性能。
对于 Bongard-HOI 视觉推理，TPT 的表现比现有最先进方法高出 4.1%。
置信度选择有助于抑制嘈杂的增广并提升熵最小化的效果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。