Skip to main content
QUICK REVIEW

[論文レビュー] ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

Di Qi, Lin Su|arXiv (Cornell University)|Jan 22, 2020
Multimodal Machine Learning Applications参考文献 30被引用数 155
ひとこと要約

ImageBERTは、LAITおよび他のデータセット上でマルチステージパイプラインを用いて4つのタスク(MLM、MOC、MRFR、ITM)で事前学習した、Transformerベースの視覚と言語を結ぶモデルで、MSCOCOとFlickr30kで最先端の画像テキスト検索を達成します。

ABSTRACT

In this paper, we introduce a new vision-language pre-trained model -- ImageBERT -- for image-text joint embedding. Our model is a Transformer-based model, which takes different modalities as input and models the relationship between them. The model is pre-trained on four tasks simultaneously: Masked Language Modeling (MLM), Masked Object Classification (MOC), Masked Region Feature Regression (MRFR), and Image Text Matching (ITM). To further enhance the pre-training quality, we have collected a Large-scale weAk-supervised Image-Text (LAIT) dataset from Web. We first pre-train the model on this dataset, then conduct a second stage pre-training on Conceptual Captions and SBU Captions. Our experiments show that multi-stage pre-training strategy outperforms single-stage pre-training. We also fine-tune and evaluate our pre-trained ImageBERT model on image retrieval and text retrieval tasks, and achieve new state-of-the-art results on both MSCOCO and Flickr30k datasets.

研究の動機と目的

  • Transformerベースのモデルを用いた画像-テキスト結合表現の開発。
  • 大規模な弱教師あり画像-テキストデータセット(LAIT)と公開データを用いたマルチステージ事前学習による活用。
  • 言語、視覚、クロスモーダル相互作用をモデリングする4つの事前学習タスクの設計と評価。
  • MSCOCOとFlickr30kの画像-テキスト検索タスクにおいて、従来の最先端と比較してファインチューニングを行う。

提案手法

  • RoIベースの視覚トークンとテキストトークンの両方を取り込むマルチモーダルTransformerを使用。
  • Faster-RCNNのRoI特徴量を5-D空間埋め込みとし、語片テキスト埋め込みと融合して画像を表現。
  • 4つのタスクで事前学習:MLM (Masked Language Modeling)、MOC (Masked Object Classification)、MRFR (Masked Region Feature Regression)、ITM (Image-Text Matching)。
  • LAITでStage-1、Conceptual CaptionsとSBU CaptionsでStage-2という2段階のマルチステージ事前学習を採用し、下流の検索タスクでファインチューニング。
  • さまざまな損失(Binary BCE、複数負を用いたCross-Entropy、Triplet)を用いた画像→テキストおよびテキスト→画像検索目的でファインチューニングを行い、ランキングマージンを最大化。

実験結果

リサーチクエスチョン

  • RQ1LAITを用いたマルチステージ事前学習は、クロスモーダル表現を検索タスクの性能向上に寄与するか?
  • RQ2異なる事前学習データ(LAIT、CC、SBU)が、ゼロショットおよびファインチューニング後の画像-テキスト検索性能にどう影響するか?
  • RQ3アーキテクチャの選択(RoI数、グローバル機能)と事前学習タスク(MRFR、MOC、MLM)が性能に与える影響は?
  • RQ4ImageBERTはファインチューミング後、MSCOCOとFlickr30kの画像および文の検索で最先端の結果を達成できるか?

主な発見

  • マルチステージ事前学習は、検索タスクにおいて単一ステージの事前学習より優れている。
  • 事前学習済みのImageBERTはMSCOCOにおいて新たなゼロショットの最先端結果を示す(stage-2)、ただし一部のゼロショット設定ではUNITERが優れることもある。
  • ファインチューニングされたImageBERTは、Flickr30kおよびMSCOCOの1kおよび5kテストセットで新たな最先端結果を達成。
  • LAITを事前学習に含め、CCおよびSBUと組み合わせることで性能が向上(LAIT+CC+SBUはLAIT単独を上回る)。
  • 100個のRoIを使用し、MRFR損失を取り入れるとゼロショットおよびファインチューニングの検索性能が大幅に向上する;binary+CE+tripletのファインチューニングは強い結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。