[論文レビュー] UNITER: UNiversal Image-TExt Representation Learning
UNITERは、条件付きマスキングと最適輸送ベースの語-領域アライメントを用いた統一画像-テキストトランスフォーマを事前学習し、6つのVision-and-Languageタスクで最先端を達成する。
Joint image-text embedding is the bedrock for most Vision-and-Language (V+L) tasks, where multimodality inputs are simultaneously processed for joint visual and textual understanding. In this paper, we introduce UNITER, a UNiversal Image-TExt Representation, learned through large-scale pre-training over four image-text datasets (COCO, Visual Genome, Conceptual Captions, and SBU Captions), which can power heterogeneous downstream V+L tasks with joint multimodal embeddings. We design four pre-training tasks: Masked Language Modeling (MLM), Masked Region Modeling (MRM, with three variants), Image-Text Matching (ITM), and Word-Region Alignment (WRA). Different from previous work that applies joint random masking to both modalities, we use conditional masking on pre-training tasks (i.e., masked language/region modeling is conditioned on full observation of image/text). In addition to ITM for global image-text alignment, we also propose WRA via the use of Optimal Transport (OT) to explicitly encourage fine-grained alignment between words and image regions during pre-training. Comprehensive analysis shows that both conditional masking and OT-based WRA contribute to better pre-training. We also conduct a thorough ablation study to find an optimal combination of pre-training tasks. Extensive experiments show that UNITER achieves new state of the art across six V+L tasks (over nine datasets), including Visual Question Answering, Image-Text Retrieval, Referring Expression Comprehension, Visual Commonsense Reasoning, Visual Entailment, and NLVR$^2$. Code is available at https://github.com/ChenRocks/UNITER.
研究の動機と目的
- 様々なVision-and-Language(V+L)タスクに一般化する普遍的な画像-テキスト表現の必要性を動機づける。
- 4つの画像-テキストデータセットを用いて、共同モーダル埋め込みを学習する大規模な事前学習フレームワークを開発する。
- MLM/MRMの条件付きマスキングと、最適輸送に基づく新しい語-領域アライメントタスクを導入し、跨モーダルアライメントを改善する。
- 提案された事前学習が複数の下流V+Lベンチマークで改善をもたらすことを示し、タスク/データセットの寄与を分析する。
提案手法
- Faster R-CNN特徴と位置情報を用いて画像領域をエンコードする。テキストトークンはWordPiecesと位置埋め込みでエンコードし、多層のTransformerで融合する。
- 画像領域を条件としたMasked Language Modeling (MLM)、テキストを条件としたMasked Region Modeling (MRM) の3つの変種、Image-Text Matching (ITM)、そしてWord-Region Alignment (WRA) の4つのタスクで事前学習を行う。
- 事前学習中は同時に1つのモダリティのみをマスクする条件付きマスキングを使用して、アライメントのずれを防ぐ。
- 語埋め込みと画像領域埋め込みの間の輸送計画を学習するために最適輸送を適用し、コストに基づくOT距離をWRA損失として最小化する。
- MRMの3つの変種を検討する:Masked Region Feature Regression (MRFR)、Masked Region Classification (MRC)、およびKL発散を用いたMRC (MRC-kl);および事前学習タスクとデータソースの組み合わせを評価する。
実験結果
リサーチクエスチョン
- RQ1単一の大規模な事前学習モデルが、共同モーダル埋め込みを用いて幅広いV+Lタスクで高い性能を発揮できるか?
- RQ2条件付きマスキングとOTベースの語-領域アライメントは、従来手法と比較して跨モーダルアライメントと下流タスクの性能を改善するか?
- RQ3多様なV+Lベンチマークへの転移を最大化する、最適な事前学習タスクとデータセットの組み合わせは何か?
- RQ4インドメインおよびアウトオブドメインのデータを含む事前学習データを増やすと、下流の結果はどうなるか?
主な発見
- UNITERは9データセットで6つのV+Lタスクにおいて新しい最先端の結果を達成。
- 条件付きマスキングとOTベースのWRAは、跨モーダルアライメントと性能の向上に寄与する。
- MLM、ITM、MRMの変種(特にMRC-klとMRFR)、およびWRAの最適な組み合わせが、最良のMeta-Sumの改善をもたらす。
- より大規模で多様なデータ(インドメイン + アウトオブドメイン)での事前学習は性能をさらに向上させるが、データが下流タスク分布と乖離すると利得は小さくなる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。