QUICK REVIEW

[論文レビュー] Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

Shilong Liu, Zhaoyang Zeng|arXiv (Cornell University)|Mar 9, 2023

Multimodal Machine Learning Applications被引用数 240

ひとこと要約

Grounding DINO は、複数のパイプライン段階で言語と視覚を密接に結合することにより、open-set の物体検出と referring expression comprehension を可能にする grounded pre-training を組み込んだ DINO を拡張します。

ABSTRACT

In this paper, we present an open-set object detector, called Grounding DINO, by marrying Transformer-based detector DINO with grounded pre-training, which can detect arbitrary objects with human inputs such as category names or referring expressions. The key solution of open-set object detection is introducing language to a closed-set detector for open-set concept generalization. To effectively fuse language and vision modalities, we conceptually divide a closed-set detector into three phases and propose a tight fusion solution, which includes a feature enhancer, a language-guided query selection, and a cross-modality decoder for cross-modality fusion. While previous works mainly evaluate open-set object detection on novel categories, we propose to also perform evaluations on referring expression comprehension for objects specified with attributes. Grounding DINO performs remarkably well on all three settings, including benchmarks on COCO, LVIS, ODinW, and RefCOCO/+/g. Grounding DINO achieves a $52.5$ AP on the COCO detection zero-shot transfer benchmark, i.e., without any training data from COCO. It sets a new record on the ODinW zero-shot benchmark with a mean $26.1$ AP. Code will be available at \url{https://github.com/IDEA-Research/GroundingDINO}.

研究の動機と目的

任意の物体を言語入力で説明する検出を可能にすることで、オープンセットの物体検出を動機づける。
言語を用いて閉セット検 detector を拡張し、新しい概念へ一般化する。
Transformer 検出器で視覚と言語を密接に統合する多段階統合アプローチを提案する。

提案手法

ネック部で自己注意と画像-テキストのクロス注意を積み重ねて cross-modality フュージョンを行う特徴量エンハンサーを導入する。
画像特徴とテキスト特徴から decoder のクエリを初期化するための言語ガイド付きクエリ選択モジュールを実装する。
クエリの共同改良のために画像とテキストのクロス注意層を持つ cross-modality デコーダを追加する。
カテゴリ名間の不要な相互作用を避けるため、テキストプロンプトをサブ文レベルで表現する。
分類のために予測物と言語トークン間のコントラスト損失を用いる。
Swin Transformer 画像バックボーンと BERT テキストバックボーンを活用した dual-encoder-single-decoder アーキテクチャで学習する。

実験結果

リサーチクエスチョン

RQ1言語情報をどのように閉セット検出器に組み込んでオープンセットの物体検出を可能にできるか。
RQ2ネック・クエリ・デコーダの厳密なフュージョンは部分的なフュージョン手法と比べてオープンセットと REC の性能を向上させるか。
RQ3Grounding DINO は強力なゼロショットと ODinW の成果を達成し、 referring expression comprehension データセットへ拡張できるか。
RQ4サブ文レベルのテキスト表現がマルチカテゴリ grounding の性能に与える影響は何か。

主な発見

Grounding DINO は COCO のゼロショット転送で COCO の学習データなしで 52.5 AP、COCO 微調整後に 63.0 AP を達成。
Grounding DINO は ODinW のゼロショットベンチマークで平均 AP が 26.1 となり新しい最先端を設定。
Grounding DINO は LVIS および ODinW を同等の設定で GLIP より上回り、データが増えるほどのスケーラビリティを示す。
モデルは open-set 評価を RefCOCO/+/g データセットへ拡張し、REC 能力を示す。
DINO からの転移を用いたアブレーションでは、Grounding DINO を事前学習済み DINO 重みから初期化することで同等または改善した性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。