[论文解读] How Much Can CLIP Benefit Vision-and-Language Tasks?
本文研究在 V&L 模型中将 CLIP 作为视觉编码器,在直接微调和在视觉与语言预训练中取得在若干任务上的具竞争力和最先进的结果。
Most existing Vision-and-Language (V&L) models rely on pre-trained visual encoders, using a relatively small set of manually-annotated data (as compared to web-crawled data), to perceive the visual world. However, it has been observed that large-scale pretraining usually can result in better generalization performance, e.g., CLIP (Contrastive Language-Image Pre-training), trained on a massive amount of image-caption pairs, has shown a strong zero-shot capability on various vision tasks. To further study the advantage brought by CLIP, we propose to use CLIP as the visual encoder in various V&L models in two typical scenarios: 1) plugging CLIP into task-specific fine-tuning; 2) combining CLIP with V&L pre-training and transferring to downstream tasks. We show that CLIP significantly outperforms widely-used visual encoders trained with in-domain annotated data, such as BottomUp-TopDown. We achieve competitive or better results on diverse V&L tasks, while establishing new state-of-the-art results on Visual Question Answering, Visual Entailment, and V&L Navigation tasks. We release our code at https://github.com/clip-vil/CLIP-ViL.
研究动机与目标
- 通过利用 CLIP 的大规模、语言监督训练,推动改进 V&L 的视觉编码器。
- 在两种设置中评估 CLIP 作为视觉编码器:直接任务专用微调和带迁移的 V&L 预训练。
- 证明相对于在域内带注释的传统编码器在多种 V&L 任务上的改进。
- 识别 CLIP 在 V&L 任务中的优势与局限,并提供可复现的开源资源。
提出的方法
- 将 CLIP 视觉编码器集成到现有的 V&L 模型中,并在三个任务上进行微调:VQA、图像描述和视觉与语言导航(VLN)。
- 将 CLIP 的变体(CLIP-Res50、CLIP-Res101、CLIP-Res50x4、CLIP-ViT-B)与基于 ImageNet 的基线进行对比。
- 在 V&L 预训练中,用 CLIP 特征替代基于区域的表示,并使用重建、图像-文本匹配和 VQA 目标进行预训练。
- 提出 CLIP-ViL 和 CLIP-ViL_p 架构,以统一的 Transformer 输入文本与 CLIP 视觉嵌入来进行 V&L 预训练。
- 评估在 VQA 中的零-shot CLIP 表现,并分析在预训练/微调期间不冻结视觉主干的影响。
实验结果
研究问题
- RQ1用 CLIP 替换视觉编码器对 V&L 任务(VQA、图像描述、VLN)的性能有何影响?
- RQ2基于 CLIP 的 V&L 模型是否能实现与区域基编码器相当或最先进的结果?
- RQ3将 CLIP 与 V&L 预训练结合对下游任务的益处与局限性是什么?
- RQ4在预训练/微调中解冻 CLIP 视觉主干如何影响 V&L 表现?
- RQ5零-shot 的 CLIP 在不进行微调的情况下是否也能解决 V&L 任务?
主要发现
- CLIP-ViL 在直接微调设定中比强基线将 VQA 准确率提高 1.4 个百分点。
- 在图像描述任务中,CLIP-Res50 和 CLIP-Res50x4 超越域内的 ImageNet 基线,获得显著的 CIDEr 和 SPICE 提升。
- CLIP-ViL_p 采用 CLIP-Res50x4,在 VQA 的测试中刷新了新的最先进记录(76.70% 测试),在 SNLI-VE 的测试中也达到 80.20%。
- CLIP-Res50x4 在 V&L 预训练中超过 VinVL(基于区域)在 VQA 上的表现,且预训练步骤更少,并在 GQA 上接近 VinVL(区域数据的优势存在时)。
- 在预训练/微调期间解冻 CLIP 视觉主干对 CLIP-Res50 的增益大于对某些基于区域的基线,表明对视觉编码器进行反向传播具有自适应收益。
- 零-shot 的 CLIP 在未进行微调时在 VQA 上表现接近随机猜测,即使经过提示工程,也凸显了需要交互式建模和任务特定训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。