Skip to main content
QUICK REVIEW

[论文解读] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Wonjae Kim, Bokyung Son|arXiv (Cornell University)|Feb 5, 2021
Multimodal Machine Learning Applications参考文献 62被引用 538
一句话总结

ViLT 提出了一种最小化的视觉-语言预训练模型,使用补丁投影的图像标记和单个 transformer 进行多模态交互,通过去除基于区域的或卷积的视觉嵌入器实现更快推理,达到具有竞争力的性能。

ABSTRACT

Vision-and-Language Pre-training (VLP) has improved performance on various joint vision-and-language downstream tasks. Current approaches to VLP heavily rely on image feature extraction processes, most of which involve region supervision (e.g., object detection) and the convolutional architecture (e.g., ResNet). Although disregarded in the literature, we find it problematic in terms of both (1) efficiency/speed, that simply extracting input features requires much more computation than the multimodal interaction steps; and (2) expressive power, as it is upper bounded to the expressive power of the visual embedder and its predefined visual vocabulary. In this paper, we present a minimal VLP model, Vision-and-Language Transformer (ViLT), monolithic in the sense that the processing of visual inputs is drastically simplified to just the same convolution-free manner that we process textual inputs. We show that ViLT is up to tens of times faster than previous VLP models, yet with competitive or better downstream task performance. Our code and pre-trained weights are available at https://github.com/dandelin/vilt.

研究动机与目标

  • 动机:在视觉-语言预训练(VLP)中减少对沉重的视觉嵌入器和区域监督的依赖。
  • 提出一个最小化、无卷积的 ViLT 架构,在单个 transformer 内将图像作为补丁与文本一起处理。
  • 展示效率提升(更快的运行时、更少的参数),同时保持具有竞争力的下游性能。

提出的方法

  • 引入 ViLT,将补丁投影的图像嵌入直接送入受 ViT 启发的 transformer,且不使用卷积骨干网或区域特征。
  • 使用在 VLP 中常见的两种预训练目标:图像-文本匹配(ITM)和掩码语言建模(MLM)。
  • 对 MLM 采用整词掩码(WWM)以提升跨模态学习。
  • 在微调阶段引入图像增强(RandAugment)以提升泛化。
  • 可选:通过基于 IPOT 的最优传输引入单词-补丁对齐(WPA),以将文本标记与视觉补丁对齐。

实验结果

研究问题

  • RQ1在没有卷积视觉组件或区域基监督的情况下,视觉-语言模型还能在标准 VLP 任务上表现良好吗?
  • RQ2在最小化 ViLT 设置中,整词掩码和图像增强等预训练策略如何影响跨模态性能?
  • RQ3相比区域特征或网格特征的 VLP 模型,无卷积、基于补丁的视觉嵌入的计算效率提升有多大?

主要发现

  • ViLT 的推理速度比基于区域特征的模型快数十倍,且比网格特征模型快至少四倍,同时保持具有竞争力甚至更好的下游性能。
  • 尽管省略了沉重的视觉嵌入器,ViLT 在 VQA、NLVR2 和检索基准上仍具有竞争力。
  • 整词掩码和图像增强显著改善 ViLT 的下游性能。
  • 在微调阶段进行更长的训练步骤并使用 RandAugment 通常会改善结果,而在消融中增加额外的 MRM 类目标(MPP)未显示收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。