[論文レビュー] Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks
BEiT-3 は、画像、テキスト、画像-テキスト対を横断するマスクデータモデリングを用いた汎用のマルチモーダル基盤モデルであり、視覚および視覚言語タスクへの転移性能で最先端を達成します。
A big convergence of language, vision, and multimodal pretraining is emerging. In this work, we introduce a general-purpose multimodal foundation model BEiT-3, which achieves state-of-the-art transfer performance on both vision and vision-language tasks. Specifically, we advance the big convergence from three aspects: backbone architecture, pretraining task, and model scaling up. We introduce Multiway Transformers for general-purpose modeling, where the modular architecture enables both deep fusion and modality-specific encoding. Based on the shared backbone, we perform masked "language" modeling on images (Imglish), texts (English), and image-text pairs ("parallel sentences") in a unified manner. Experimental results show that BEiT-3 obtains state-of-the-art performance on object detection (COCO), semantic segmentation (ADE20K), image classification (ImageNet), visual reasoning (NLVR2), visual question answering (VQAv2), image captioning (COCO), and cross-modal retrieval (Flickr30K, COCO).
研究の動機と目的
- 単一の基盤モデルの下で視覚と言語の事前学習を統一する動機づけ
- モダリティ特異的符号化と横断統合をサポートする汎用バックボーン(マルチウェイ・トランスフォーマー)の提案
- 画像、テキスト、画像-テキスト対に適用されたマスクドデータモデリングを統一的な前処理タスクとして定義
- モデルサイズとデータ量のスケーリングが多様な下流タスクへの転移を改善することの示唆
- 公開リソースベースの事前学習で、タスク間でSOTAに対して競争力を持つ結果を達成可能であることの実証
提案手法
- モダリティ特異的エキスパートと共有セルフアテンションを組み合わせたマルチウェイ・トランスフォーマーを採用し、深い融合とモダリティ特異的符号化を実現
- 統一的な前処理タスクを定義:モノモーダルおよびマルチモーダルデータ上のマスク→予測(マスクドデータモデリング)を行い、画像を外国語(Imglish)として扱う
- テキストを SentencePiece でトークン化し、画像は BEiT v2 のビジュアルトークンを再構成のターゲットとして使用
- テキストのマスク率を 15%(モノモーダル)、画像-テキスト対のテキストトークンを 50%、画像パッチを 40% マスクするブロック状 masking を適用
- BEiT-3 を 40層アーキテクチャ(約 19 億パラメータ)で公開データソース上に事前学習させ、1 ステップあたり 2048 枚画像、2048 件のテキスト、2048 件の画像-テキスト対のバッチを使用
- 下流転移をさまざまなモードで可能にする(視覚エンコーダ、リトリーバル用デュアルエンコーダ、マルチモーダルタスク用フュージョンエンコーダ)
実験結果
リサーチクエスチョン
- RQ1単一の統一アーキテクチャ(マルチウェイ・トランスフォーマー)が視覚タスクと視覚言語タスクの両方を効率的にサポートできるか?
- RQ2画像、テキスト、画像-テキスト対に対する単一のマスクドデータモデリング目的が、転移可能なマルチモーダル表現の学習に十分か?
- RQ3モデルサイズとデータ量のスケーリングが、視覚および視覚言語の広範なベンチマークに対してどのような性能影響を与えるか?
主な発見
| カテゴリ | タスク | データセット | 指標 | Previous SOTA | BEiT-3 |
|---|---|---|---|---|---|
| Vision | Semantic Segmentation | ADE20K | mIoU | FD-SwinV2 (61.4) | 62.8 (+1.4) |
| Vision | Object Detection | COCO | AP | DINO (63.3) | 63.7 (+0.4) |
| Vision | Instance Segmentation | COCO | AP | Mask DINO (54.7) | 54.8 (+0.1) |
| Vision | Image Classification | ImageNet | Top-1 acc. | FD-CLIP (89.0) | 89.6 (+0.6) |
| Vision-Language | Visual Reasoning | NLVR2 | Acc. | CoCa (87.0) | 92.6 (+5.6) |
| Vision-Language | Visual Question Answering | VQAv2 | VQA acc. | CoCa (82.3) | 84.0 (+1.7) |
| Vision-Language | Image Captioning | COCO | CIDEr | OFA (145.3) | 147.6 (+2.3) |
| Vision-Language | Finetuned Retrieval | COCO | R@1 | Florence (72.5) | 76.0 (+3.5) |
| Vision-Language | Flickr30K Retrieval | Flickr30K | R@1 | Florence (92.6) | 94.2 (+1.6) |
| Vision-Language | Zero-shot Retrieval | Flickr30K | R@1 | CoCa (86.5) | 88.2 (+1.7) |
- BEiT-3 は COCO 物体検出(AP)、COCO インスタンス分割(AP)、ADE20K セマンティックセグメンテーション(mIoU)、ImageNet 分類(Top-1 acc.)、NLVR2 視覚推論、VQAv2 視覚質問応答、COCO 画像キャプション(CIDEr)、およびクロスモーダル検索(Flickr30K, COCO) など多様なタスクで最先端の転移を達成
- 視覚タスクでは、BEiT-3 は公開データ資源のみを用いた事前学習・微調整で、従来のSOTAと同等かそれを上回る性能を示す
- 視覚言語タスクでは、VQA、NLVR2、キャプショニング、リトリーバルのベンチマーク全般で従来のSOTAを超え、マスキングベースの事前学習を通じた強い跨模態整合性を示す
- Zero-shot およびファインチューニングされたリトリーバルの結果は、以前のモデルと比較して競争力が高く、COCO および Flickr30K のリトリーバルで顕著な改善を示す
- セマンティックセグメンテーションと画像分類の結果は、単一統一モデルで最高クラスの精度を達成
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。