QUICK REVIEW

[論文レビュー] ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

Di Qi, Lin Su|arXiv (Cornell University)|Jan 22, 2020

Multimodal Machine Learning Applications参考文献 30被引用数 155

ひとこと要約

ImageBERTは、LAITおよび他のデータセット上でマルチステージパイプラインを用いて4つのタスク（MLM、MOC、MRFR、ITM）で事前学習した、Transformerベースの視覚と言語を結ぶモデルで、MSCOCOとFlickr30kで最先端の画像テキスト検索を達成します。

ABSTRACT

In this paper, we introduce a new vision-language pre-trained model -- ImageBERT -- for image-text joint embedding. Our model is a Transformer-based model, which takes different modalities as input and models the relationship between them. The model is pre-trained on four tasks simultaneously: Masked Language Modeling (MLM), Masked Object Classification (MOC), Masked Region Feature Regression (MRFR), and Image Text Matching (ITM). To further enhance the pre-training quality, we have collected a Large-scale weAk-supervised Image-Text (LAIT) dataset from Web. We first pre-train the model on this dataset, then conduct a second stage pre-training on Conceptual Captions and SBU Captions. Our experiments show that multi-stage pre-training strategy outperforms single-stage pre-training. We also fine-tune and evaluate our pre-trained ImageBERT model on image retrieval and text retrieval tasks, and achieve new state-of-the-art results on both MSCOCO and Flickr30k datasets.

研究の動機と目的

Transformerベースのモデルを用いた画像-テキスト結合表現の開発。
大規模な弱教師あり画像-テキストデータセット（LAIT）と公開データを用いたマルチステージ事前学習による活用。
言語、視覚、クロスモーダル相互作用をモデリングする4つの事前学習タスクの設計と評価。
MSCOCOとFlickr30kの画像-テキスト検索タスクにおいて、従来の最先端と比較してファインチューニングを行う。

提案手法

RoIベースの視覚トークンとテキストトークンの両方を取り込むマルチモーダルTransformerを使用。
Faster-RCNNのRoI特徴量を5-D空間埋め込みとし、語片テキスト埋め込みと融合して画像を表現。
4つのタスクで事前学習：MLM (Masked Language Modeling)、MOC (Masked Object Classification)、MRFR (Masked Region Feature Regression)、ITM (Image-Text Matching)。
LAITでStage-1、Conceptual CaptionsとSBU CaptionsでStage-2という2段階のマルチステージ事前学習を採用し、下流の検索タスクでファインチューニング。
さまざまな損失（Binary BCE、複数負を用いたCross-Entropy、Triplet）を用いた画像→テキストおよびテキスト→画像検索目的でファインチューニングを行い、ランキングマージンを最大化。

実験結果

リサーチクエスチョン

RQ1LAITを用いたマルチステージ事前学習は、クロスモーダル表現を検索タスクの性能向上に寄与するか？
RQ2異なる事前学習データ（LAIT、CC、SBU）が、ゼロショットおよびファインチューニング後の画像-テキスト検索性能にどう影響するか？
RQ3アーキテクチャの選択（RoI数、グローバル機能）と事前学習タスク（MRFR、MOC、MLM）が性能に与える影響は？
RQ4ImageBERTはファインチューミング後、MSCOCOとFlickr30kの画像および文の検索で最先端の結果を達成できるか？

主な発見

マルチステージ事前学習は、検索タスクにおいて単一ステージの事前学習より優れている。
事前学習済みのImageBERTはMSCOCOにおいて新たなゼロショットの最先端結果を示す（stage-2）、ただし一部のゼロショット設定ではUNITERが優れることもある。
ファインチューニングされたImageBERTは、Flickr30kおよびMSCOCOの1kおよび5kテストセットで新たな最先端結果を達成。
LAITを事前学習に含め、CCおよびSBUと組み合わせることで性能が向上（LAIT+CC+SBUはLAIT単独を上回る）。
100個のRoIを使用し、MRFR損失を取り入れるとゼロショットおよびファインチューニングの検索性能が大幅に向上する；binary+CE+tripletのファインチューニングは強い結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。