Skip to main content
QUICK REVIEW

[論文レビュー] Fine-Grained Semantically Aligned Vision-Language Pre-Training

Juncheng Li, Xin He|arXiv (Cornell University)|Aug 4, 2022
Multimodal Machine Learning Applications被引用数 29
ひとこと要約

LOUPEは、視覚領域とテキスト句間の細粒度の意味的整合性を、ゲーム理論に基づくShapley相互作用を用いて学習し、最先端のゼロショット検索を達成するとともに、オブジェクトレベルの注釈なしで、オブジェクト検出/視覚的グラウンディングにおいて競争力を発揮します。

ABSTRACT

Large-scale vision-language pre-training has shown impressive advances in a wide range of downstream tasks. Existing methods mainly model the cross-modal alignment by the similarity of the global representations of images and texts, or advanced cross-modal attention upon image and text features. However, they fail to explicitly learn the fine-grained semantic alignment between visual regions and textual phrases, as only global image-text alignment information is available. In this paper, we introduce LOUPE, a fine-grained semantically aLigned visiOn-langUage PrE-training framework, which learns fine-grained semantic alignment from the novel perspective of game-theoretic interactions. To efficiently compute the game-theoretic interactions, we further propose an uncertainty-aware neural Shapley interaction learning module. Experiments show that LOUPE achieves state-of-the-art performance on a variety of vision-language tasks. Furthermore, without any object-level human annotations and fine-tuning, LOUPE achieves competitive performance on object detection and visual grounding. More importantly, LOUPE opens a new promising direction of learning fine-grained semantics from large-scale raw image-text pairs. The repository of this work is at https://github.com/YYJMJC/LOUPE.

研究の動機と目的

  • 画像領域とテキスト句の間の、グローバルな画像-テキスト一致を超える明示的な細粒度の整合性を学習する動機付け。
  • トークンレベルとセマンティクスレベルの整合性をモデル化する、ゲーム理論的Shapley相互作用フレームワークを提案。
  • 計算量を削減するための、不確実性を考慮したニューラルShapley相互作用学習モジュールを用いた効率的な訓練を実現。
  • ファインチューニングなしで、画像-テキスト検索におけるゼロショット性能が高く、オブジェクト検出および視覚的グラウンディングへの転移にも示す。

提案手法

  • 二段階Shapley相互作用をモデル化: トークンレベルでパッチトークンを意味的な画像領域へクラスタリングし、次いでセマンティクスレベルで領域とテキスト句を整合させる。
  • トークンレベルShapley相互作用を、軽量な領域生成器と意味的集約損失(L_TSA)を用いた領域発見の監視として定義。
  • セマンティクスレベルShapley相互作用を、領域-句の整合を細粒度の類似度スコアとそれに対応する損失(L_FSA)で捉えるよう定義。
  • Shapley相互作用を近似するハイブリッド手法: 不確実性を考慮したニューラルShapley相互作用学習(UNSIL)モジュールと、計算を削減するためのサンプリングに基づく推定。
  • 結合目的関数: L = L_CMC + L_TSA + L_FSA、L_CMCはクロスモーダルコントラスト損失。
  • デュアルエンコーダアーキテクチャ(画像 Swin-L、テキスト BERT-Small)と、事前学習用の240Mの画像-テキストデータセットを使用。

実験結果

リサーチクエスチョン

  • RQ1視覚領域とテキスト句の間の、マニュアルな領域-句アノテーションなしに、 raw image-textデータから明示的な細粒度の整合性を学習できるか。
  • RQ2トークンレベルとセマンティクスレベルのShapley相互作用は、クロスモーダル検索と下流の細粒度ビジョン-言語理解を改善するか。
  • RQ3不確実性を考慮したShapley相互作用モジュールは、整合性の品質を損なうことなく、トレーニングコストを大幅に削減できるか。

主な発見

  • LOUPEは、Flickr30Kおよび MSCOCOにおけるゼロショット画像-テキスト検索で新しい最先端の性能を達成(画像-to-textおよび text-to-image)。
  • オブジェクトレベルの注釈やファインチューニングなしで、LOUPEはゼロショット設定でオブジェクト検出および視覚的グラウンディングへ転送し、競争力のある結果を示す。
  • アブレーション実験では、トークンレベルTSAとセマンティクスレベルFSAの損失を追加することで、タスク間での性能が大幅に向上し、UNSILは推定精度を維持しつつトレーニング時間を短縮する。
  • COCOおよびPASCAL VOCでのゼロショットオブジェクト検出とRefCOCO/RefCOCO+での視覚的グラウンディングは、CLIP系変種より顕著な改善を示す。
  • インスタビリティ分析は、シャプリー相互作用推定が十分なサンプリング(約500サンプル)で安定することを示す。
  • UNSILとMLP+Attentionは、Shapley相互作用の不確実性推定を効果的に提供し、精度と効率のバランスを取る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。