QUICK REVIEW

[論文レビュー] An Open and Comprehensive Pipeline for Unified Object Grounding and Detection

Xiangyu Zhao, Yi-Cheng Chen|arXiv (Cornell University)|Jan 4, 2024

Multimodal Machine Learning Applications被引用数 7

ひとこと要約

MM-Grounding-DINOは、Grounding-DINOを基盤とするオープンソースの包括的な grounding/detection パイプラインであり、広範なビジョンデータセットで事前学習され、OVD、PG、および REC タスクでゼロショットおよびファインチューニング性能が高い。

ABSTRACT

Grounding-DINO is a state-of-the-art open-set detection model that tackles multiple vision tasks including Open-Vocabulary Detection (OVD), Phrase Grounding (PG), and Referring Expression Comprehension (REC). Its effectiveness has led to its widespread adoption as a mainstream architecture for various downstream applications. However, despite its significance, the original Grounding-DINO model lacks comprehensive public technical details due to the unavailability of its training code. To bridge this gap, we present MM-Grounding-DINO, an open-source, comprehensive, and user-friendly baseline, which is built with the MMDetection toolbox. It adopts abundant vision datasets for pre-training and various detection and grounding datasets for fine-tuning. We give a comprehensive analysis of each reported result and detailed settings for reproduction. The extensive experiments on the benchmarks mentioned demonstrate that our MM-Grounding-DINO-Tiny outperforms the Grounding-DINO-Tiny baseline. We release all our models to the research community. Codes and trained models are released at https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino.

研究の動機と目的

単一のフレームワークを通じたオープンで統一された Open-Vocabulary Detection、Phrase Grounding、および Referring Expression Comprehension の推進。
広範な事前学習と多様なデータセットを備えた再現性のある MMDetection ベース実装を提供。
COCO、LVIS、RefCOCO/+/g、Flickr30k Entities、ODinW、gRefCOCO、D3 の一般化を評価する包括的なベンチマークを提供。
MM-Grounding-DINO-Tiny バリアントが複数タスクで Grounding-DINO-Tiny ベースラインを上回ることを示す。

提案手法

モデルを Grounding-DINO を基盤とし、画像とテキストのバックボーン（Swin Transformer と BERT 系言語エンコーダ）を採用。
Bi-Attention、自己注意、変形可能自己注意層を用いた深いクロスモダリティ融合のための特徴量強化器を導入。
テキスト特徴からデコーダのクエリを初期化する言語誘導クエリ選択モジュールを適用。
画像/テキストのクロスアテンションとデコーダブロックごとにテキストクロスアテンション層を備えたクロスモダリティデコーダを用い、予測を洗練。
箱回帰/分類のために L1、GIoU、 focal 損失を用い、デコーダ層ごとの補助損失を含める；収束を速めるためにコントラスト埋め込み初期化のバイアスを含める。
OVD、PG、REC を跨ぐ十数データセットを用意し、Cap4M が入手不可の場合は GRIT/V3Det を代替として使用；15データセットのマルチタスク訓練プロトコルを採用。

実験結果

リサーチクエスチョン

RQ1 unified Open-Vocabulary Detection、Phrase Grounding、Referring Expression Comprehension を大規模マルチタスク事前学習で実現できるか？
RQ2対比埋め込みモジュールのバイアスを組み込むことで収束とゼロショット転送が改善されるか？
RQ3 extensive multi-dataset pretraining が COCO、LVIS、RefCOCO/+/g、ODinW ベンチマークでのゼロショットおよびファインチューニング性能にどう影響するか？
RQ4 downstream の物体検出やドメイン固有データセットなどのタスクへファインチューニングした場合の MM-Grounding-DINO の転移性はどうなるか？

主な発見

MM-Grounding-DINO-Tiny バリアントは、ゼロショット COCO で Grounding-DINO-Tiny ベースラインを上回り（最大 50.6 mAP）、LVIS MiniVal で最大 41.4 AP を達成。
COCO のゼロショットで、MM-G-T(c3) は変種間で 50.4–50.6 mAP を達成し、Grounding-DINO-Tiny ベースラインを上回る。
LVIS のゼロショットで、MM-G-T(c3) は MiniVal で 41.4 AP、Val で 31.9 AP に到達し、ベースラインに対して大きな利得を示す。
ゼロショット ODinW の性能は MM-G-T(c3) で向上し、ODinW13 で 53.3 mAP、ODinW35 で 28.4 mAP を達成、特に V3Det を含む場合に顕著。
COCO でのファインチューニングは大きな mAP 増加を生み、オープンセットのファインチューニングで最大 58.2 mAP、オープンボキャブラリのファインチューニングで事前学習と比較して有意な改善を示す。
MM-Grounding-DINO は REC および下流タスクへの転移も強く、RefCOCO/+/g や LVIS でさまざまな設定でファインチューニングした場合に顕著な利得を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。