Skip to main content
QUICK REVIEW

[論文レビュー] UFO: A UniFied TransfOrmer for Vision-Language Representation Learning

Jianfeng Wang, Xiaowei Hu|arXiv (Cornell University)|Nov 19, 2021
Multimodal Machine Learning Applications参考文献 48被引用数 28
ひとこと要約

UFOは、画像エンコーダ、テキストエンコーダ、視覚言語事前学習のためのマルチモーダル融合エンコーダとして機能できる単一の統一トランスフォーマを導入し、VQA、COCOキャプション、nocapsで強力な結果を達成するとともに、重いモダリティ特化コンポーネントを用いずに画像-テキスト検索でも競争力を維持します。

ABSTRACT

In this paper, we propose a single UniFied transfOrmer (UFO), which is capable of processing either unimodal inputs (e.g., image or language) or multimodal inputs (e.g., the concatenation of the image and the question), for vision-language (VL) representation learning. Existing approaches typically design an individual network for each modality and/or a specific fusion network for multimodal tasks. To simplify the network architecture, we use a single transformer network and enforce multi-task learning during VL pre-training, which includes the image-text contrastive loss, image-text matching loss, and masked language modeling loss based on the bidirectional and the seq2seq attention mask. The same transformer network is used as the image encoder, the text encoder, or the fusion network in different pre-training tasks. Empirically, we observe less conflict among different tasks and achieve new state of the arts on visual question answering, COCO image captioning (cross-entropy optimization) and nocaps (in SPICE). On other downstream tasks, e.g., image-text retrieval, we also achieve competitive performance.

研究の動機と目的

  • 単一のトランスフォーマを用いて、単一モードとマルチモードの視覚言語タスクの両方でアーキテクチャの複雑さを動機づけて削減する。
  • 単一統合モデルを複数タスク(ITC、ITM、MLM、S-MLM)で事前学習し、単一モード・マルチモードの能力の両方をサポートする。
  • モーメンタム教師を用いたマルチタスク事前学習がVQA、画像キャプション、nocapsで競争力あるいは最先端の結果をもたらすことを示し、検索タスクに対しても効率的である。

提案手法

  • 画像をパッチに投影し、テキストを埋め込みに変換して共有トークン列を形成することにより、画像エンコーダ、テキストエンコーダ、融合ネットワークとして機能する単一のトランスフォーマー・バックボーンを採用する。
  • 画像とテキストの単一モーダル表現を学習するために、image-text contrastive loss (ITC) を使用する。
  • マルチモーダル融合タスクのために、bidirectionalおよびseq2seq注意マスクを用いたimage-text matching loss (ITM) と masked language modeling loss (MLM) を使用する。
  • ITC/MLM/S-MLMタスクの蒸留損失を介して事前学習を導くために、モーメンタム教師を取り入れる。
  • 繰り返しごとにランダムにサンプルされた損失で訓練し、多タスク最適化を安定化させ、タスク間の衝突を低減する。

実験結果

リサーチクエスチョン

  • RQ1単一で共有されたトランスフォーマーアーキテクチャは、単一モードの画像/テキストエンコードと視覚言語タスクのマルチモーダル融合の両方を効果的に処理できるだろうか?
  • RQ2マルチタスクの視覚言語プリトレーニング損失(ITC、ITM、MLM、S-MLM)は互いを補完し、モーメンタム蒸留は下流のVLタスクの性能を改善するのか?
  • RQ3重いモダリティ特化の融合ネットワークや検出器に基づく画像特徴に頼らず、VQA、COCOキャプショニング、nocapsで最先端の結果を達成することは可能か?

主な発見

  • A single UniFied transfOrmer (UFO) can function as an image encoder, text encoder, and multimodal fusion encoder within the same architecture.
  • ITC enables unimodal understanding for images and texts, while ITM and MLM/S-MLM empower multimodal fusion and language generation capabilities.
  • Using a momentum teacher and randomly selecting one pre-training loss per iteration yields improved performance and training stability across downstream VL tasks.
  • UFO achieves strong results on VQA, COCO image captioning (CIDEr), and nocaps (SPICE), and competitive performance on image-text retrieval compared to state-of-the-art methods with larger pre-training data.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。