[论文解读] ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data
ImageBERT 是基于 Transformer 的视觉-语言模型,在 LAIT 及其他数据集上通过四项任务(MLM、MOC、MRFR、ITM)进行多阶段预训练,在 MSCOCO 和 Flickr30k 上达到最先进的图文检索性能。
In this paper, we introduce a new vision-language pre-trained model -- ImageBERT -- for image-text joint embedding. Our model is a Transformer-based model, which takes different modalities as input and models the relationship between them. The model is pre-trained on four tasks simultaneously: Masked Language Modeling (MLM), Masked Object Classification (MOC), Masked Region Feature Regression (MRFR), and Image Text Matching (ITM). To further enhance the pre-training quality, we have collected a Large-scale weAk-supervised Image-Text (LAIT) dataset from Web. We first pre-train the model on this dataset, then conduct a second stage pre-training on Conceptual Captions and SBU Captions. Our experiments show that multi-stage pre-training strategy outperforms single-stage pre-training. We also fine-tune and evaluate our pre-trained ImageBERT model on image retrieval and text retrieval tasks, and achieve new state-of-the-art results on both MSCOCO and Flickr30k datasets.
研究动机与目标
- 开发基于 Transformer 的联合图像-文本嵌入模型。
- 通过多阶段预训练,利用大规模弱监督图像-文本数据集(LAIT)以及公开数据。
- 设计并评估四项预训练任务,以建模语言、视觉和跨模态交互。
- 在图像-文本检索任务上进行微调,并与 MSCOCO 和 Flickr30k 的先前最先进结果进行比较。
提出的方法
- 使用一个多模态 Transformer,输入 RoI 基于的视觉标记与文本标记。
- 通过 Faster-RCNN 的 RoI 特征表示图像,配合 5-D 空间嵌入,与词片段文本嵌入融合。
- 用四项任务进行预训练:MLM (Masked Language Modeling)、MOC (Masked Object Classification)、MRFR (Masked Region Feature Regression)、ITM (Image-Text Matching)。
- 采用两阶段多阶段预训练:Stage-1 在 LAIT 上,Stage-2 在 Conceptual Captions 和 SBU Captions 上,然后在下游检索任务上进行微调。
- 使用图像到文本和文本到图像检索目标进行微调,采用多种损失(Binary BCE、带多负样本的交叉熵、Triplet)以最大化排序边距。
实验结果
研究问题
- RQ1通过 LAIT 的多阶段预训练是否能改善跨模态在检索任务中的表示?
- RQ2不同的预训练数据(LAIT、CC、SBU)如何影响零-shot 与微调后的图像-文本检索性能?
- RQ3结构选择(RoI 数量、全局特征)以及预训练任务(MRFR、MOC、MLM)对性能有何影响?
- RQ4微调后 ImageBERT 是否能在 MSCOCO 和 Flickr30k 上同时在图像检索和句子检索方面达到最新的最先进结果?
主要发现
| 方法 | Flickr30k 图像检索 R@1 | Flickr30k 图像检索 R@5 | Flickr30k 图像检索 R@10 | Flickr30k 句子检索 R@1 | Flickr30k 句子检索 R@5 | Flickr30k 句子检索 R@10 | MSCOCO 图像检索 R@1 | MSCOCO 图像检索 R@5 | MSCOCO 图像检索 R@10 | MSCOCO 句子检索 R@1 | MSCOCO 句子检索 R@5 | MSCOCO 句子检索 R@10 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ImageBERT (1k Test set) | 73.1 | 92.6 | 96.0 | 87.0 | 97.6 | 99.2 | 73.6 | 94.3 | 97.2 | 85.4 | 98.7 | 99.8 |
| ImageBERT (5k Test set) | - | - | - | - | - | - | 50.5 | 78.7 | 87.1 | 66.4 | 89.8 | 94.4 |
- 多阶段预训练在检索任务中优于单阶段预训练。
- 预训练的 ImageBERT 在 MSCOCO 的零-shot 展现出新的最先进结果(stage-2),尽管在某些零-shot 设置中 UNITER 可能超越。
- 微调后的 ImageBERT 在 Flickr30k 和 MSCOCO 的 1k 与 5k 测试集上均达到新的最先进结果。
- 在预训练中加入 LAIT 并与 CC 和 SBU 结合可提升性能(LAIT+CC+SBU 优于仅使用 LAIT)。
- 使用 100 个 RoI 并引入 MRFR 损失可显著提升零-shot 和微调检索性能;Binary+CE+Triplet 微调产生强结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。