Skip to main content
QUICK REVIEW

[论文解读] ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

Di Qi, Lin Su|arXiv (Cornell University)|Jan 22, 2020
Multimodal Machine Learning Applications参考文献 30被引用 155
一句话总结

ImageBERT 是基于 Transformer 的视觉-语言模型,在 LAIT 及其他数据集上通过四项任务(MLM、MOC、MRFR、ITM)进行多阶段预训练,在 MSCOCO 和 Flickr30k 上达到最先进的图文检索性能。

ABSTRACT

In this paper, we introduce a new vision-language pre-trained model -- ImageBERT -- for image-text joint embedding. Our model is a Transformer-based model, which takes different modalities as input and models the relationship between them. The model is pre-trained on four tasks simultaneously: Masked Language Modeling (MLM), Masked Object Classification (MOC), Masked Region Feature Regression (MRFR), and Image Text Matching (ITM). To further enhance the pre-training quality, we have collected a Large-scale weAk-supervised Image-Text (LAIT) dataset from Web. We first pre-train the model on this dataset, then conduct a second stage pre-training on Conceptual Captions and SBU Captions. Our experiments show that multi-stage pre-training strategy outperforms single-stage pre-training. We also fine-tune and evaluate our pre-trained ImageBERT model on image retrieval and text retrieval tasks, and achieve new state-of-the-art results on both MSCOCO and Flickr30k datasets.

研究动机与目标

  • 开发基于 Transformer 的联合图像-文本嵌入模型。
  • 通过多阶段预训练,利用大规模弱监督图像-文本数据集(LAIT)以及公开数据。
  • 设计并评估四项预训练任务,以建模语言、视觉和跨模态交互。
  • 在图像-文本检索任务上进行微调,并与 MSCOCO 和 Flickr30k 的先前最先进结果进行比较。

提出的方法

  • 使用一个多模态 Transformer,输入 RoI 基于的视觉标记与文本标记。
  • 通过 Faster-RCNN 的 RoI 特征表示图像,配合 5-D 空间嵌入,与词片段文本嵌入融合。
  • 用四项任务进行预训练:MLM (Masked Language Modeling)、MOC (Masked Object Classification)、MRFR (Masked Region Feature Regression)、ITM (Image-Text Matching)。
  • 采用两阶段多阶段预训练:Stage-1 在 LAIT 上,Stage-2 在 Conceptual Captions 和 SBU Captions 上,然后在下游检索任务上进行微调。
  • 使用图像到文本和文本到图像检索目标进行微调,采用多种损失(Binary BCE、带多负样本的交叉熵、Triplet)以最大化排序边距。

实验结果

研究问题

  • RQ1通过 LAIT 的多阶段预训练是否能改善跨模态在检索任务中的表示?
  • RQ2不同的预训练数据(LAIT、CC、SBU)如何影响零-shot 与微调后的图像-文本检索性能?
  • RQ3结构选择(RoI 数量、全局特征)以及预训练任务(MRFR、MOC、MLM)对性能有何影响?
  • RQ4微调后 ImageBERT 是否能在 MSCOCO 和 Flickr30k 上同时在图像检索和句子检索方面达到最新的最先进结果?

主要发现

方法Flickr30k 图像检索 R@1Flickr30k 图像检索 R@5Flickr30k 图像检索 R@10Flickr30k 句子检索 R@1Flickr30k 句子检索 R@5Flickr30k 句子检索 R@10MSCOCO 图像检索 R@1MSCOCO 图像检索 R@5MSCOCO 图像检索 R@10MSCOCO 句子检索 R@1MSCOCO 句子检索 R@5MSCOCO 句子检索 R@10
ImageBERT (1k Test set)73.192.696.087.097.699.273.694.397.285.498.799.8
ImageBERT (5k Test set)------50.578.787.166.489.894.4
  • 多阶段预训练在检索任务中优于单阶段预训练。
  • 预训练的 ImageBERT 在 MSCOCO 的零-shot 展现出新的最先进结果(stage-2),尽管在某些零-shot 设置中 UNITER 可能超越。
  • 微调后的 ImageBERT 在 Flickr30k 和 MSCOCO 的 1k 与 5k 测试集上均达到新的最先进结果。
  • 在预训练中加入 LAIT 并与 CC 和 SBU 结合可提升性能(LAIT+CC+SBU 优于仅使用 LAIT)。
  • 使用 100 个 RoI 并引入 MRFR 损失可显著提升零-shot 和微调检索性能;Binary+CE+Triplet 微调产生强结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。