QUICK REVIEW

[論文レビュー] SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

Zirui Wang, Jiahui Yu|arXiv (Cornell University)|Aug 24, 2021

Multimodal Machine Learning Applications参考文献 54被引用数 342

ひとこと要約

SimVLM は弱く整列した画像-テキストデータを用いて、単一の Prefix Language Modeling 目的で vision-language 表現をエンドツーエンドで事前学習し、VL ベンチマーク全体で最先端の結果と強力なゼロショット転送を実現します。

ABSTRACT

With recent progress in joint modeling of visual and textual representations, Vision-Language Pretraining (VLP) has achieved impressive performance on many multimodal downstream tasks. However, the requirement for expensive annotations including clean image captions and regional labels limits the scalability of existing approaches, and complicates the pretraining procedure with the introduction of multiple dataset-specific objectives. In this work, we relax these constraints and present a minimalist pretraining framework, named Simple Visual Language Model (SimVLM). Unlike prior work, SimVLM reduces the training complexity by exploiting large-scale weak supervision, and is trained end-to-end with a single prefix language modeling objective. Without utilizing extra data or task-specific customization, the resulting model significantly outperforms previous pretraining methods and achieves new state-of-the-art results on a wide range of discriminative and generative vision-language benchmarks, including VQA (+3.74% vqa-score), NLVR2 (+1.17% accuracy), SNLI-VE (+1.37% accuracy) and image captioning tasks (+10.1% average CIDEr score). Furthermore, we demonstrate that SimVLM acquires strong generalization and transfer ability, enabling zero-shot behavior including open-ended visual question answering and cross-modality transfer.

研究の動機と目的

簡易でスケーラブルな vision-language 前処理フレームワークを提案し、高価な注釈や複雑な目的への依存を減らす。
raw 画像とテキストに対するエンドツーエンドの Prefix Language Modeling が MLM ベースの VLP 方法と同等以上を達成できることを示す。
大規模な弱監視でゼロショット一般化とモダリティ横断転送を強力に示す。

提案手法

オブジェクト検出器を用いず、原始的な画像パッチとテキストトークンを処理する Transformer バックボーンを使用。
Prefix Language Modeling を採用し、残りのトークンに対して双方向プレフィックスエンコーディングと自己回帰的テキスト生成を可能にする。
単一の LM ロスで、大規模な弱く整列した画像-テキストおよびテキストのみデータから scratch で事前学習。
画像パッチをパッチ埋め込み前の Conv 段で統合し、画像トークンに対して 2D 相対的なアテンションを適用。
標準の VL ベンチマークで一段階の pretraining–finetuning パイプラインでファインチューニング。

実験結果

リサーチクエスチョン

RQ1最小限の生成的な vision-language 前処理フレームワークを language modeling objectives のみで訓練して VL ベンチマークで SOTA を達成できるか？
RQ2PrefixLM はタスク特異的な損失やオブジェクト検出器なしで効果的なゼロショットおよびモダリティ横断転送を可能にするか？
RQ3弱くラベル付けされた image-text データ（およびテキストのみデータ）の使用は、VL タスクの検出ベースの事前学習と比較してどうか？
RQ4画像パッチング、Conv 段、位置エンコーディングといったアーキテクチャの選択が VL パフォーマンスに与える影響は？
RQ5モデルはゼロショット設定でオープンエンドの VQA およびモダリティ横断転送を示せるか？

主な発見

SimVLM は追加データやタスク特異的損失なしで 6 つの VL ベンチマークで最先端の結果を達成。
VQA において SimVLM_base、Large、Huge は従来手法を上回り、Huge は VQA スコアが 80% を超える。
NLVR2 および SNLI-VE では、モデルサイズに対して新しい SOTA/準SOTA の精度を達成。
画像キャプション生成および NoCaps/Multi30k で大きな改善を示し、平均 CIDEr が約 10 ポイント程度向上。
スケーリングと弱 supervision によりゼロショットのモダリティ横断転送とオープンエンド VQA 能力が出現。
モダリティ横断転送（テキストのみファインチューニング後に VL タスクで評価）が、監視付きベースラインと競合する結果を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。