Skip to main content
QUICK REVIEW

[論文レビュー] GLIPv2: Unifying Localization and Vision-Language Understanding

Haotian Zhang, Pengchuan Zhang|arXiv (Cornell University)|Jun 12, 2022
Multimodal Machine Learning Applications被引用数 126
ひとこと要約

GLIPv2 は、局在化(検出/セグメンテーション)と VL 理解(グラウンデッド VQA、グラウンディング、キャプショニング)を統一的に組み合わせた事前学習済みの grounded vision-language model である。言語指向の視覚タスクのための統一。局在化と VL 理解は多様なデータセットにおいて相互に利益をもたらすことを実証する。

ABSTRACT

We present GLIPv2, a grounded VL understanding model, that serves both localization tasks (e.g., object detection, instance segmentation) and Vision-Language (VL) understanding tasks (e.g., VQA, image captioning). GLIPv2 elegantly unifies localization pre-training and Vision-Language Pre-training (VLP) with three pre-training tasks: phrase grounding as a VL reformulation of the detection task, region-word contrastive learning as a novel region-word level contrastive learning task, and the masked language modeling. This unification not only simplifies the previous multi-stage VLP procedure but also achieves mutual benefits between localization and understanding tasks. Experimental results show that a single GLIPv2 model (all model weights are shared) achieves near SoTA performance on various localization and understanding tasks. The model also shows (1) strong zero-shot and few-shot adaption performance on open-vocabulary object detection tasks and (2) superior grounding capability on VL understanding tasks. Code will be released at https://github.com/microsoft/GLIP.

研究の動機と目的

  • Localization と vision-language 理解の両方のタスクを実行できる単一のモデルを動機づける。
  • 言語指向の検出、セグメンテーション、グラウンディング、VQA、キャプショニングを可能にする。
  • 共同の Localization と VL 理解のための事前学習損失とデータ規模を調査する。
  • 複数のデータセットにわたる詳細な訓練、アブレーション、推論速度分析を提供する。

提案手法

  • 検出、グラウンディング、キャプションデータで GLIPv2 の変種を事前学習させ、3 つの損失成分を用いる: intra-image region-word contrastive、inter-image word-region contrastive、および MLM。
  • 視覚特徴と言語特徴をつなぐ Hourglass ベースのセグメンテーションヘッドと VL 融合モジュールを備えた統一アーキテクチャを使用する。
  • COCO/ODinW/LVIS などの検出とグラウンディング、 referring segmentation の PhraseCut、VQA2.0 の VQA、COCO キャプショニングなどの下流タスクをファインチューニングする。
  • 訓練時および推論時に予測された語句を画像領域へグラウンディングして、グラウンデッド VQA およびグラウンデッド画像キャプショニングを評価する。

実験結果

リサーチクエスチョン

  • RQ1単一の事前学習モデルは Localization と vision-language 理解タスクの両方で同時に優れた性能を発揮できるか?
  • RQ2追加の事前学習損失(inter-image word-region contrastive、MLM)とデータスケーリングは Localization と VL 理解の両方の性能を向上させるか?
  • RQ3ファインチューニングまたはゼロショット評価時に、さまざまなデータセットとタスクで GLIPv2 はどのような性能を示すか?
  • RQ4下流の VL タスクへ対する異なる事前学習データ型(検出、グラウンディング、キャプション)の相対的寄与度はどれか?

主な発見

  • GLIPv2 の変種は、検出とグラウンディングにおいて COCO、ODinW、LVIS のゼロショットおよびファインチューニング性能を向上させる。
  • inter-image word-region contrastive loss の追加は、局在化とグラウンディングの性能を大幅に向上させる。
  • MLM 損失は Flickr30K、VQA、キャプショニングなどの言語理解タスクに有益である。
  • Cap4M および CC/SBU を用いたデータ規模の拡大は、ドメイン内およびドメイン間のタスクの性能をさらに向上させる。
  • グラウンディング付き画像キャプショニングの結果は、Flick30K でのグラウンディング整合性を伴う競争力のあるキャプション品質を示す。
  • 推論速度の比較では、GLIPv2 の変種が COCO および関連タスクで MDETR に対して競争力のあるスループットを達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。