[論文レビュー] ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data
ImageBERTは、LAITおよび他のデータセット上でマルチステージパイプラインを用いて4つのタスク(MLM、MOC、MRFR、ITM)で事前学習した、Transformerベースの視覚と言語を結ぶモデルで、MSCOCOとFlickr30kで最先端の画像テキスト検索を達成します。
In this paper, we introduce a new vision-language pre-trained model -- ImageBERT -- for image-text joint embedding. Our model is a Transformer-based model, which takes different modalities as input and models the relationship between them. The model is pre-trained on four tasks simultaneously: Masked Language Modeling (MLM), Masked Object Classification (MOC), Masked Region Feature Regression (MRFR), and Image Text Matching (ITM). To further enhance the pre-training quality, we have collected a Large-scale weAk-supervised Image-Text (LAIT) dataset from Web. We first pre-train the model on this dataset, then conduct a second stage pre-training on Conceptual Captions and SBU Captions. Our experiments show that multi-stage pre-training strategy outperforms single-stage pre-training. We also fine-tune and evaluate our pre-trained ImageBERT model on image retrieval and text retrieval tasks, and achieve new state-of-the-art results on both MSCOCO and Flickr30k datasets.
研究の動機と目的
- Transformerベースのモデルを用いた画像-テキスト結合表現の開発。
- 大規模な弱教師あり画像-テキストデータセット(LAIT)と公開データを用いたマルチステージ事前学習による活用。
- 言語、視覚、クロスモーダル相互作用をモデリングする4つの事前学習タスクの設計と評価。
- MSCOCOとFlickr30kの画像-テキスト検索タスクにおいて、従来の最先端と比較してファインチューニングを行う。
提案手法
- RoIベースの視覚トークンとテキストトークンの両方を取り込むマルチモーダルTransformerを使用。
- Faster-RCNNのRoI特徴量を5-D空間埋め込みとし、語片テキスト埋め込みと融合して画像を表現。
- 4つのタスクで事前学習:MLM (Masked Language Modeling)、MOC (Masked Object Classification)、MRFR (Masked Region Feature Regression)、ITM (Image-Text Matching)。
- LAITでStage-1、Conceptual CaptionsとSBU CaptionsでStage-2という2段階のマルチステージ事前学習を採用し、下流の検索タスクでファインチューニング。
- さまざまな損失(Binary BCE、複数負を用いたCross-Entropy、Triplet)を用いた画像→テキストおよびテキスト→画像検索目的でファインチューニングを行い、ランキングマージンを最大化。
実験結果
リサーチクエスチョン
- RQ1LAITを用いたマルチステージ事前学習は、クロスモーダル表現を検索タスクの性能向上に寄与するか?
- RQ2異なる事前学習データ(LAIT、CC、SBU)が、ゼロショットおよびファインチューニング後の画像-テキスト検索性能にどう影響するか?
- RQ3アーキテクチャの選択(RoI数、グローバル機能)と事前学習タスク(MRFR、MOC、MLM)が性能に与える影響は?
- RQ4ImageBERTはファインチューミング後、MSCOCOとFlickr30kの画像および文の検索で最先端の結果を達成できるか?
主な発見
- マルチステージ事前学習は、検索タスクにおいて単一ステージの事前学習より優れている。
- 事前学習済みのImageBERTはMSCOCOにおいて新たなゼロショットの最先端結果を示す(stage-2)、ただし一部のゼロショット設定ではUNITERが優れることもある。
- ファインチューニングされたImageBERTは、Flickr30kおよびMSCOCOの1kおよび5kテストセットで新たな最先端結果を達成。
- LAITを事前学習に含め、CCおよびSBUと組み合わせることで性能が向上(LAIT+CC+SBUはLAIT単独を上回る)。
- 100個のRoIを使用し、MRFR損失を取り入れるとゼロショットおよびファインチューニングの検索性能が大幅に向上する;binary+CE+tripletのファインチューニングは強い結果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。