[論文レビュー] Multimodal Masked Autoencoders Learn Transferable Representations
M3AEは、モダリティ特化エンコーダや対比学習なしに、マスク済みトークン再構成によって統一的な視覚-言語表現を学習し、ImageNetの線形分類やOOD検出などの下流タスクに転用可能な表現を達成します。
Building scalable models to learn from diverse, multimodal data remains an open challenge. For vision-language data, the dominant approaches are based on contrastive learning objectives that train a separate encoder for each modality. While effective, contrastive learning approaches introduce sampling bias depending on the data augmentations used, which can degrade performance on downstream tasks. Moreover, these methods are limited to paired image-text data, and cannot leverage widely-available unpaired data. In this paper, we investigate whether a large multimodal model trained purely via masked token prediction, without using modality-specific encoders or contrastive learning, can learn transferable representations for downstream tasks. We propose a simple and scalable network architecture, the Multimodal Masked Autoencoder (M3AE), which learns a unified encoder for both vision and language data via masked token prediction. We provide an empirical study of M3AE trained on a large-scale image-text dataset, and find that M3AE is able to learn generalizable representations that transfer well to downstream tasks. Surprisingly, we find that M3AE benefits from a higher text mask ratio (50-90%), in contrast to BERT whose standard masking ratio is 15%, due to the joint training of two data modalities. We also provide qualitative analysis showing that the learned representation incorporates meaningful information from both image and language. Lastly, we demonstrate the scalability of M3AE with larger model size and training time, and its flexibility to train on both paired image-text data as well as unpaired data.
研究の動機と目的
- マスク付きトークン予測のみで訓練された大規模マルチモーダルモデルが、視覚と言語を横断して転移可能な表現を学習できるかを検証する。
- モダリティ特化エンコーダを用いず、両モダリティに統一エンコーダを用いた、シンプルでスケーラブルなアーキテクチャを開発する。
- 大規模な画像-テキストデータによるマルチモーダル事前学習が、画像分類やOOD検出などの下流タスクの性能にどう影響するかを評価する。
- 単一の訓練フレームワークで、ペア付きデータと非ペアデータの両方を活用するモデルの能力を評価する。
提案手法
- 画像-テキストのペアを、長いトークン列(画像パッチ+テキストトークン)として扱う。
- 画像パッチとテキストトークンの両方の高い割合をマスクし、統一されたトランスフォーマーエンコーダ-デコーダを介して欠損部分を再構成する。
- モダリティ固有の埋め込みと共有されたCLSトークンを用いて、両モダリティを共通の表現空間に写像する。
- 再構成目的で訓練する:マスクされた画像パッチにはMSE、マスクされたテキストトークンにはクロスエントロピー、マスクされた要素のみに適用。
- ペア付きデータと非ペアデータの混合での訓練を許容し、対照学習なしで柔軟なデータ利用を実現する。
実験結果
リサーチクエスチョン
- RQ1M3AEは、ImageNet分類やOOD検出などの下流タスクへ転用可能な一般化可能な表現を学習できるか?
- RQ2学習された表現は、画像と言語の両モダリティから意味のある情報を取り込んでいるか?
- RQ3モデルサイズ、訓練時間、マスキング戦略は、性能と転移性にどのように影響するか?
- RQ4M3AEは、単一の訓練目的内で、ペア付き画像-テキストデータと非ペアデータの両方を効果的に活用できるか?
主な発見
| モデル | MAE | M3AE | CLIP | 教師あり |
|---|---|---|---|---|
| Accuracy | 44.6 | 61.3 | 69.0 | 81.8 |
| M3AE text ratio | 10% | 20% | 30% | 100% |
| Accuracy | 53.3 | 54.0 | 54.5 | 58.8 |
- M3AEは比較でMAEを大幅に上回る(例:報告設定で61.3対44.6)。
- M3AEはペア付きデータと非ペアデータの混合を活用でき、部分的なペアリングでも強い転移を達成する。
- より高いテキストマスク比(約50-75%以上)がM3AEの性能を向上させる。従来のBERT系設定とは異なる。
- M3AEは、より大きなモデルサイズと長い訓練でスケールし、ViT-S/16、ViT-B/16、ViT-L/16のバリアントを横断してMAEを上回る。
- 定性的分析は、注意が関連する画像領域と対応するテキストトークンに整合していることを示しており、視覚と言語の結合理解を示唆する。
- M3AEはCC12MとImageNetにまたがるOOD検出と再構成品質で頑健性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。