Skip to main content
QUICK REVIEW

[論文レビュー] InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining

Junyang Lin, Yang An|arXiv (Cornell University)|Mar 30, 2020
Multimodal Machine Learning Applications参考文献 60被引用数 56
ひとこと要約

InterBERTは、視覚言語事前学習のための単一ストリーム相互作用機構と二重ストリーム抽出モジュールを導入し、MGMとITM-hnの事前学習タスクを併用します。画像検索とVCRでベースラインを上回りつつ、単一モダリティの性能を高水準に維持し、Taobaoでの展開にもつながっています。

ABSTRACT

Multi-modal pretraining for learning high-level multi-modal representation is a further step towards deep learning and artificial intelligence. In this work, we propose a novel model, namely InterBERT (BERT for Interaction), which is the first model of our series of multimodal pretraining methods M6 (MultiModality-to-MultiModality Multitask Mega-transformer). The model owns strong capability of modeling interaction between the information flows of different modalities. The single-stream interaction module is capable of effectively processing information of multiple modalilties, and the two-stream module on top preserves the independence of each modality to avoid performance downgrade in single-modal tasks. We pretrain the model with three pretraining tasks, including masked segment modeling (MSM), masked region modeling (MRM) and image-text matching (ITM); and finetune the model on a series of vision-and-language downstream tasks. Experimental results demonstrate that InterBERT outperforms a series of strong baselines, including the most recent multi-modal pretraining methods, and the analysis shows that MSM and MRM are effective for pretraining and our method can achieve performances comparable to BERT in single-modal tasks. Besides, we propose a large-scale dataset for multi-modal pretraining in Chinese, and we develop the Chinese InterBERT which is the first Chinese multi-modal pretrained model. We pretrain the Chinese InterBERT on our proposed dataset of 3.1M image-text pairs from the mobile Taobao, the largest Chinese e-commerce platform. We finetune the model for text-based image retrieval, and recently we deployed the model online for topic-based recommendation.

研究の動機と目的

  • 単純な MLM/MOM を超えた堅牢な多モダル表現学習を、強力なクロスモーダル相互作用を可能にすることで動機づける。
  • 単一ストリーム相互作用モジュールと二重ストリーム抽出モジュールを設計して、モダリティの独立性を保つ。
  • クロスモーダル理解を高めるために、Masked Group Modeling(テキスト用 MSM、画像用 MRM)と Image-Text Matching with Hard Negatives(ITM-hn)という事前学習タスクを導入する。
  • 下流タスク(キャプションベースの画像検索、ゼロショット検索、Visual Commonsense Reasoning(VCR))で評価し、単一モダル転移性と初期化効果を分析する。
  • オンライン Taobao 展開と A/B テストを通じた展開可能性を示す。

提案手法

  • 画像とテキストの埋め込みを統合する単一ストリーム全注意機構を用いる。
  • 下流用途のためのモダリティ固有表現を生み出す二重ストリーム抽出モジュールを実装する。
  • Masked Group Modeling(テキストは MSM、画像は MRM)とHard Negativesを用いたImage-Text Matching(ITM-hn)で事前学習する。
  • MSMは連続するテキスト断片をマスクし、MRMはアンカーとのIoUが高い画像領域をマスクする。
  • ITM-hnはTF-IDFで取得された難易度の高いネガティブを用いて挑戦的な画像-テキストペアを作成する。
  • キャプションベースの画像検索、ゼロショット検索、VCR などの下流タスクにファインチューニングする。

実験結果

リサーチクエスチョン

  • RQ1統一された全注意相互作用を維持しつつ、モダリティ独立性を保ちながら、マルチモーダル事前学習モデルは恩恵を受けられるか。
  • RQ2MGM と ITM-hn の事前学習タスクは、クロスモーダル理解と下流性能を向上させるか。
  • RQ3InterBERTはBERTと比較して、単一モダリティのNLPタスクへどれだけ転移できるか。
  • RQ4BERT初期化がマルチモーダル事前学習の性能に与える影響は何か。
  • RQ5InterBERTは VilBERT/VL-BERT と比較して、標準的な視覚言語ベンチマーク(IR、ゼロショットIR、VCR)でどのように性能を示すか。

主な発見

ModelIR R@1IR R@5IR R@10Zero-shot R@1Zero-shot R@5Zero-shot R@10VCR Q→AVCR QA→RVCR Q→AR
SCAN (Lee et al., 2018)48.677.785.2------
R2C (Zellers et al., 2019)------63.867.243.1
VisualBERT (Li et al., 2019b)------70.873.252.2
VilBERT (Lu et al., 2019a)58.284.991.531.961.172.872.474.554.0
VL-BERT (Su et al., 2019)------73.874.454.2
InterBERT (w/o pt)53.180.687.9---63.663.140.3
InterBERT61.987.192.749.277.686.073.174.854.9
  • InterBERTは画像検索とVCRで強力なベースラインを上回り、ゼロショット画像検索で顕著な向上を示す。
  • Flickr30Kベースの画像検索で、InterBERTは61.9% R@1、87.1% R@5、92.7% R@10(IR)を達成。
  • ゼロショット画像検索では、InterBERTは49.2% R@1、77.6% R@5、86.0% R@10を達成。
  • VCRでは、InterBERTは73.1% Q→A、74.8% QA→R、54.9% Q→ARを達成し、R2CとVilBERTのベースラインを上回る。
  • 事前学習なしのInterBERTは、事前学習ありと比べて劣っており、多モダル事前学習の有効性を示す。
  • GLUE風の結果はInterBERTがNLPタスクでBERT-baseと互角かそれ以上のパフォーマンスを示し、単一モダリティの能力もBERT-baseに近い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。