[論文レビュー] Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts
X-VLMは、推論時に境界ボックス入力なしで視覚概念(オブジェクト、領域、画像)とテキストを整合させることでマルチグレインの視覚・言語プリトレーニングを実現し、複数のV+Lタスクで最先端の性能を達成します。
Most existing methods in vision language pre-training rely on object-centric features extracted through object detection and make fine-grained alignments between the extracted features and texts. It is challenging for these methods to learn relations among multiple objects. To this end, we propose a new method called X-VLM to perform `multi-grained vision language pre-training.' The key to learning multi-grained alignments is to locate visual concepts in the image given the associated texts, and in the meantime align the texts with the visual concepts, where the alignments are in multi-granularity. Experimental results show that X-VLM effectively leverages the learned multi-grained alignments to many downstream vision language tasks and consistently outperforms state-of-the-art methods.
研究の動機と目的
- オブジェクト中心または画像全体の表現を超えた視覚と言語の整合学習を動機づける。
- オブジェクト、領域、画像レベルの視覚概念とテキストを結びつけることで、マルチグラニュラリティの整合を可能にする。
- 視覚概念を同時に特定し、それをテキストの説明と整合させる訓練目的を開発する。
- 推論時に境界ボックス入力なしで、下流のV+Lタスク全般で効果を示すことを実証する。
提案手法
- 視覚概念をビジョン・トランスフォーマーのマルチグレイン出力として表現し、オブジェクト、領域、全体画像を含む。
- 各画像に複数のボックスを持たせ、それぞれが関連概念のテキスト記述と結びつくよう事前学習データを定式化する。
- 境界ボックス予測(ボックス回帰+IoU)と整合のためのマルチタスク損失(コントラスト損失、マッチング損失、マスクド言語モデリング損失)で最適化する。
- 各層でクロスアテンションを介して視覚と言語の特徴を融合するクロスメディア・トランスフォーマーを使用。
- データ効率とスケーラビリティを評価するために4Mおよび16Mの画像設定で学習し、AdamW最適化とスケジュール学習率ウォームアップを使用。
- 推論時には境界ボックスの注釈を回避し、学習済みのマルチグレイン整合を下流タスクに活用する。
実験結果
リサーチクエスチョン
- RQ1事前学習中にマルチグレインの視覚概念(オブジェクト、領域、画像レベルの概念)をテキスト記述と整合させることは可能か。
- RQ2視覚概念を同時に特定し、それをテキストと整合させることは、検索、推論、グラウンディング、キャプショニングのタスク性能を向上させるか。
- RQ3標準ベンチマークで、X-VLMはオブジェクト中心および粗粒度のV+Lモデルと比較してどのように性能を発揮するか。
- RQ4適度なモデルサイズと学習データで強力なV+L性能を達成することは可能か。
主な発見
- X-VLMは、4Mおよび16Mの事前学習設定の両方で、画像-テキスト検索(MSCOCOおよびFlickr30K)において最先端手法を上回る。
- MSCOCOでは、X-VLM (4M) は TRで80.4/95.5/98.2、IRで63.1/85.7/91.6を達成し、X-VLM (16M) は TRで81.2/95.6/98.2、IRで63.4/85.8/91.5を達成する。
- X-VLMは、VinVLおよび他のベースラインより視覚推論(VQAおよび NLVR2)と視覚的グラウンディング(RefCOCO+)で改善を示し、特にグラウンディングでUNITERに対してRefCOCO+で4.5%絶対的な向上を示す。
- X-VLMは最先端の生成的方法と同等の画像キャプショニング結果を提供し、ファインチューニング後にCIDErの改善を観察。
- アブレーションは、オブジェクト概念または領域概念の削除やbbox損失の除去が性能を低下させることを示し、マルチグレイン学習の重要性を浮き彫りにしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。