QUICK REVIEW

[论文解读] ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

Di Qi, Lin Su|arXiv (Cornell University)|Jan 22, 2020

Multimodal Machine Learning Applications参考文献 30被引用 155

一句话总结

ImageBERT 是基于 Transformer 的视觉-语言模型，在 LAIT 及其他数据集上通过四项任务（MLM、MOC、MRFR、ITM）进行多阶段预训练，在 MSCOCO 和 Flickr30k 上达到最先进的图文检索性能。

ABSTRACT

In this paper, we introduce a new vision-language pre-trained model -- ImageBERT -- for image-text joint embedding. Our model is a Transformer-based model, which takes different modalities as input and models the relationship between them. The model is pre-trained on four tasks simultaneously: Masked Language Modeling (MLM), Masked Object Classification (MOC), Masked Region Feature Regression (MRFR), and Image Text Matching (ITM). To further enhance the pre-training quality, we have collected a Large-scale weAk-supervised Image-Text (LAIT) dataset from Web. We first pre-train the model on this dataset, then conduct a second stage pre-training on Conceptual Captions and SBU Captions. Our experiments show that multi-stage pre-training strategy outperforms single-stage pre-training. We also fine-tune and evaluate our pre-trained ImageBERT model on image retrieval and text retrieval tasks, and achieve new state-of-the-art results on both MSCOCO and Flickr30k datasets.

研究动机与目标

开发基于 Transformer 的联合图像-文本嵌入模型。
通过多阶段预训练，利用大规模弱监督图像-文本数据集（LAIT）以及公开数据。
设计并评估四项预训练任务，以建模语言、视觉和跨模态交互。
在图像-文本检索任务上进行微调，并与 MSCOCO 和 Flickr30k 的先前最先进结果进行比较。

提出的方法

使用一个多模态 Transformer，输入 RoI 基于的视觉标记与文本标记。
通过 Faster-RCNN 的 RoI 特征表示图像，配合 5-D 空间嵌入，与词片段文本嵌入融合。
用四项任务进行预训练：MLM (Masked Language Modeling)、MOC (Masked Object Classification)、MRFR (Masked Region Feature Regression)、ITM (Image-Text Matching)。
采用两阶段多阶段预训练：Stage-1 在 LAIT 上，Stage-2 在 Conceptual Captions 和 SBU Captions 上，然后在下游检索任务上进行微调。
使用图像到文本和文本到图像检索目标进行微调，采用多种损失（Binary BCE、带多负样本的交叉熵、Triplet）以最大化排序边距。

实验结果

研究问题

RQ1通过 LAIT 的多阶段预训练是否能改善跨模态在检索任务中的表示？
RQ2不同的预训练数据（LAIT、CC、SBU）如何影响零-shot 与微调后的图像-文本检索性能？
RQ3结构选择（RoI 数量、全局特征）以及预训练任务（MRFR、MOC、MLM）对性能有何影响？
RQ4微调后 ImageBERT 是否能在 MSCOCO 和 Flickr30k 上同时在图像检索和句子检索方面达到最新的最先进结果？

主要发现

方法	Flickr30k 图像检索 R@1	Flickr30k 图像检索 R@5	Flickr30k 图像检索 R@10	Flickr30k 句子检索 R@1	Flickr30k 句子检索 R@5	Flickr30k 句子检索 R@10	MSCOCO 图像检索 R@1	MSCOCO 图像检索 R@5	MSCOCO 图像检索 R@10	MSCOCO 句子检索 R@1	MSCOCO 句子检索 R@5	MSCOCO 句子检索 R@10
ImageBERT (1k Test set)	73.1	92.6	96.0	87.0	97.6	99.2	73.6	94.3	97.2	85.4	98.7	99.8
ImageBERT (5k Test set)	-	-	-	-	-	-	50.5	78.7	87.1	66.4	89.8	94.4

多阶段预训练在检索任务中优于单阶段预训练。
预训练的 ImageBERT 在 MSCOCO 的零-shot 展现出新的最先进结果（stage-2），尽管在某些零-shot 设置中 UNITER 可能超越。
微调后的 ImageBERT 在 Flickr30k 和 MSCOCO 的 1k 与 5k 测试集上均达到新的最先进结果。
在预训练中加入 LAIT 并与 CC 和 SBU 结合可提升性能（LAIT+CC+SBU 优于仅使用 LAIT）。
使用 100 个 RoI 并引入 MRFR 损失可显著提升零-shot 和微调检索性能；Binary+CE+Triplet 微调产生强结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。