[论文解读] Chain of Thought Prompt Tuning in Vision Language Models
本文介绍了用于视觉-语言模型的链式思维提示微调,利用链式提示、自适应链控制器和 Meta-Nets 来模拟逐步推理,在图像分类、检索和 VQA 任务上提升泛化能力。
Language-Image Pre-training has demonstrated promising results on zero-shot and few-shot downstream tasks by prompting visual models with natural language prompts. However, most recent studies only use a single prompt for tuning, neglecting the inherent step-to-step cognitive reasoning process that humans conduct in complex task settings, for example, when processing images from unfamiliar domains. Chain of Thought is a simple and effective approximation to human reasoning process and has been proven useful for natural language processing (NLP) tasks. Based on this cognitive intuition, we believe that conducting effective reasoning is also an important problem in visual tasks, and a chain of thought could be a solution to this problem. In this work, we propose a novel chain of thought prompt tuning for vision-language modeling. Extensive experiments show that our method not only generalizes better in image classification tasks, has greater transferability beyond a single dataset, and has stronger domain generalization performance, but also performs much better in imagetext retrieval and visual question answering, which require more reasoning capabilities. We are the first to successfully adapt chain-of-thought prompting that combines visual and textual embeddings. We will release our codes
研究动机与目标
- 通过引入人类式逐步推理来提升视觉-语言提示的泛化能力。
- 开发将视觉和文本嵌入结合的链式思维提示架构。
- 引入自适应链控制器以按输入动态调整推理深度。
- 在提示中加入一系列 Meta-Nets 以生成针对各步的偏置。
- 在从基础到新颖的泛化、跨数据集迁移、领域泛化、图像文本检索和 VQA 等任务中展示性能提升。
提出的方法
- 构建一个提示链,每个提示对应一个推理步骤并将信息传递给下一步。
- 使用一个按步骤的网络链(每一步一个)来生成步骤特定偏置,且通过残差连接保留原始视觉特征。
- 引入自适应链控制器(线性-ReLU-线性-Sigmoid),输出每个提示步的权重 lambda_j。
- 采用一系列 Meta-Nets 产生偏置,添加到每一步的提示嵌入中,通过残差式架构保留信息。
- 在链末使用最终提示进行预测,同时保持视觉编码器和文本编码器冻结,仅训练提示、Meta-Nets 和控制器。
实验结果
研究问题
- RQ1链式思维推理能否与视觉-语言提示有效结合,以提升泛化和需要推理的任务的表现?
- RQ2动态、输入引导的链控制器是否能提升对未知概念和领域的适应能力?
- RQ3链式 Meta-Nets 与提示链在 V-L 任务中是否优于单一提示或不连接的 Meta-Net 方案?
主要发现
- 该方法在五项任务和 18 个数据集上表现出持续的改进,包括基础到新颖泛化、跨数据集迁移、领域泛化、图像-文本检索和 VQA。
- 在基础到新颖的设置中,基础到新颖的调和均值分数超越 CoCoOp 的数据集。
- 跨数据集迁移在十个数据集中的八个上显示最高准确率,全部十个数据集均超过 CoOp。
- 在 ImageNet 训练的情况下,四个目标数据集上实现了最佳的领域泛化性能。
- 在零-shot 和数据稀缺的检索与 VQA 设置中,相较于 CLIP 和 CoCoOp,在 Flickr30k、MSCOCO 和 VQAv2 的小训练分数下均表现更优。
- 三步提示长度在性能与稳定性之间达到最佳平衡;动态链控制器在大多数数据集上获得最佳结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。