[論文レビュー] VL-BEiT: Generative Vision-Language Pretraining
VL-BEiTは、単一のマスク後予測目的を用いて単一モダリティおよびマルチモダリティデータ上で双方向のマルチモーダルTransformerを事前学習し、視覚と言語のタスクで強力な結果を達成するとともに、視覚タスクに転用可能な視覚特徴を獲得します。
We introduce a vision-language foundation model called VL-BEiT, which is a bidirectional multimodal Transformer learned by generative pretraining. Our minimalist solution conducts masked prediction on both monomodal and multimodal data with a shared Transformer. Specifically, we perform masked vision-language modeling on image-text pairs, masked language modeling on texts, and masked image modeling on images. VL-BEiT is learned from scratch with one unified pretraining task, one shared backbone, and one-stage training. Our method is conceptually simple and empirically effective. Experimental results show that VL-BEiT obtains strong results on various vision-language benchmarks, such as visual question answering, visual reasoning, and image-text retrieval. Moreover, our method learns transferable visual features, achieving competitive performance on image classification, and semantic segmentation.
研究の動機と目的
- 単一モノモードとマルチモダルデータの両方を活用できる、視覚と言語モデルのための単純で統一的な生成的事前学習アプローチを動機づける。
- 1つの共有バックボーンと1段階のトレーニングで、ゼロからマスク後予測の目的を用いて事前学習を行う。
- 視覚と言語タスクおよび一般的な視覚タスクに適した転送可能なマルチモーダル表現を学習する。
提案手法
- 異なるモダリティを処理するために、MoME(mixture-of-modality-experts)を用いた共有マルチモーダルTransformerバックボーンを使用する。
- 3つのマスク付き予測タスクを実行する:画像のマスク付きモデリング、テキストのマスク付き言語モデリング、画像とテキストのペアに対するマスク付き視覚言語モデリング。
- 画像を[I_CLS]トークンを含むパッチ列として表現し、テキストを[T_CLS]と[T_SEP]を含むトークン埋め込みとして表現する。マルチモーダル入力のために画像とテキストの表現を連結する。
- 単一モダリティデータ(画像はImageNet-22K、テキストは英語WikipediaとBookCorpus)およびマルチモーダルデータ(Conceptual Captions、SBU、COCO、Visual Genome)で事前学習する。
- 下流の視覚と言語タスクのために、画像エンコーダ、デュアルエンコーダ、またはフュージョンエンコーダとしてファインチューニングする。
- 事前学習タスクとMoMEアーキテクチャをアブレーションして寄与を評価する。
実験結果
リサーチクエスチョン
- RQ1単一の統一されたマスク付き事前学習目的が、単一モダリティおよびマルチモダルデータの両方で強力な視覚言語表現を生み出すことができるか。
- RQ2共有されたMoME Transformerは、マルチモーダル学習において標準的なTransformerとどのように比較されるか。
- RQ3下流タスクにおけるMVLM(マスク付き視覚言語モデリング)と純粋なモノモダリティのMLM/MIMの影響はどうか。
- RQ4事前学習タスクは、画像分類やセマンティックセグメンテーションなどの純粋な視覚タスクへの転送をどの程度可能にするか。
主な発見
- VL-BEiTは、視覚質問応答、視覚推論、画像-テキスト検索などの視覚と言語のベンチマークで競争力のある性能を発揮する。
- 本モデルは転送可能な視覚特徴を学習し、画像分類とセマンティックセグメンテーションで高い結果を達成する。
- アブレーションによるとMVLMが重要であり、モノモーダルデータのMLMとMIMもプラスの寄与をする。
- MoME Transformerはアブレーションで標準Transformerを上回り、モダリティ特異的なエキスパートがマルチモーダル理解を向上させることを示している。
- VL-BEiTは、1段階のゼロからの事前学習を1つの統一された目的で行うことで、柔軟な視覚言語表現と視覚表現を生み出せることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。