Skip to main content
QUICK REVIEW

[論文レビュー] InterBERT: An Effective Multi-Modal Pretraining Approach via Vision-and-Language Interaction

Junyang Lin, Yang An|arXiv (Cornell University)|Mar 30, 2020
Multimodal Machine Learning Applications参考文献 64被引用数 11
ひとこと要約

InterBERT は、シングルストリーム相互作用モジュールと二ストリーム抽出モジュールを用いて、視覚と言語の相互作用を強化するマルチモーダル事前学習フレームワークを提案する。これにより、単一モダリティのパフォーマンスを損なわずに効果的なクロスモダリティ理解が可能となる。マスクドグループモデリング(MGM)を導入し、画像検索や視覚的推論などの視覚・言語タスクでのパフォーマンスを向上させ、強力なベースラインを上回る。

ABSTRACT

We propose a novel method for multi-modal pretraining, namely InterBERT (BERT for Interaction). The proposed architecture owns a strong capability of modeling interaction between the information flows of different modalities. The single-stream interaction module is capable of effectively processing information of multiple modalities, and the two-stream extraction module on top preserves the independence of each modality to avoid significant performance downgrade in single-modal tasks. The proposed pretraining task called masked group modeling (MGM) includes masked segment modeling and masked region modeling. It encourages the model to model a span or region instead of a single word or object, and it requires the model to learn from the general context. We pretrain the model with MGM and the conventional image-text matching, and finetune it on a series of vision-and-language downstream tasks, including caption-based image retrieval, zero-shot image retrieval, and visual commonsense reasoning. Experimental results demonstrate that InterBERT outperforms a series of strong baselines, including the most recent multi-modal pretraining methods. The analysis shows that the proposed MGM is effective for pretraining, and our method for multi-modal pretraining can adapt to single-modal tasks without significant performance decrease in comparison with the BERT-base model.

研究の動機と目的

  • 視覚と言語モダリティの間の相互作用を明示的にモデル化することで、マルチモーダル表現学習を向上させること。
  • 従来のマルチモーダルモデルとは異なり、微調整なしに単一モダリティタスクで高いパフォーマンスを維持すること。
  • 個々のトークンやオブジェクトではなく、スパンや領域の間の文脈的関係を捉える事前学習目的を開発すること。
  • マスクドグループモデリング(MGM)が、下流の視覚・言語タスクにおけるクロスモダリティ理解をどのように向上させるかを評価すること。

提案手法

  • InterBERT は、視覚的およびテキスト的特徴を統合するためのシングルストリーム相互作用モジュールを採用し、動的クロスモダリティアテンションと相互作用を可能にする。
  • 二ストリーム抽出モジュールにより、モダリティ固有の表現が保持され、単一モダリティの下流タスクにおけるロバスト性が確保される。
  • 提案されたマスクドグループモデリング(MGM)タスクでは、テキストの連続するスパンまたは画像の領域がマスクされ、モデルは文脈を用いてそれらを再構築する必要がある。
  • MGM には、テキスト用のマスクドセグメントモデリングと、視覚的特徴用のマスクドリージョンモデリングが含まれており、モダリティ間での文脈的推論を促進する。
  • モデルは、大規模な画像・テキストペア上で MGM と画像・テキストマッチングの目的関数を用いて事前学習される。
  • 下流タスク、例えばキャプションベース画像検索、ゼロショット画像検索、視覚的共通認識推論への微調整が適用される。

実験結果

リサーチクエスチョン

  • RQ1標準的なマスクド言語モデリングと比較して、マスクドグループモデリング(MGM)はマルチモーダル事前学習をどのように改善するか?
  • RQ2統合されたマルチモーダルアーキテクチャは、微調整なしに単一モダリティタスクで高いパフォーマンスを維持できるか?
  • RQ3モダリティ間の相互作用をモデル化することで、下流の視覚・言語推論タスクへのパフォーマンスはどの程度向上するか?
  • RQ4ベンチマークタスクにおいて、InterBERT は最先端のマルチモーダル事前学習手法と比較してどのように評価されるか?

主な発見

  • InterBERT は、最近のマルチモーダル事前学習モデルを含む強力なベースラインを、キャプションベース画像検索およびゼロショット画像検索タスクで上回る。
  • マスクドグループモデリング(MGM)の目的関数は、モダリティ間で文脈的表現を学習する能力を顕著に向上させる。
  • 二ストリーム抽出モジュールにより、InterBERT は BERT-base と同等の単一モダリティタスクパフォーマンスを維持しており、パフォーマンスの低下を回避する。
  • 分析により、MGM がモデルが一般文脈を推論するのを促進し、視覚・言語タスクにおけるより良い一般化性能をもたらすことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。