QUICK REVIEW

[논문 리뷰] Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

Shilong Liu, Zhaoyang Zeng|arXiv (Cornell University)|2023. 03. 09.

Multimodal Machine Learning Applications인용 수 240

한 줄 요약

Grounding DINO는 여러 파이프라인 단계에서 언어와 비전을 촘촘히 융합하여 오픈 세트 객체 탐지 및 지시 표현 이해를 가능하게 하기 위한 grounded 사전 학습으로 DINO를 확장합니다.

ABSTRACT

In this paper, we present an open-set object detector, called Grounding DINO, by marrying Transformer-based detector DINO with grounded pre-training, which can detect arbitrary objects with human inputs such as category names or referring expressions. The key solution of open-set object detection is introducing language to a closed-set detector for open-set concept generalization. To effectively fuse language and vision modalities, we conceptually divide a closed-set detector into three phases and propose a tight fusion solution, which includes a feature enhancer, a language-guided query selection, and a cross-modality decoder for cross-modality fusion. While previous works mainly evaluate open-set object detection on novel categories, we propose to also perform evaluations on referring expression comprehension for objects specified with attributes. Grounding DINO performs remarkably well on all three settings, including benchmarks on COCO, LVIS, ODinW, and RefCOCO/+/g. Grounding DINO achieves a $52.5$ AP on the COCO detection zero-shot transfer benchmark, i.e., without any training data from COCO. It sets a new record on the ODinW zero-shot benchmark with a mean $26.1$ AP. Code will be available at \url{https://github.com/IDEA-Research/GroundingDINO}.

연구 동기 및 목표

임의의 객체를 언어 입력으로 설명하여 탐지할 수 있도록 오픈 세트 객체 탐지를 자극합니다.
언어를 활용하여 닫힌 집합 탐지기를 확장하고 새로운 개념에 일반화합니다.
Transformer 탐지기에서 비전과 언어를 촘촘히 통합하기 위한 다단계 융합 접근법을 제안합니다.

제안 방법

피처 엔Hancer를 도입하여 Neck에서 자체 어텐션과 이미지-텍스트 교차 어텐션을 쌓아 교차 모달리티 융합을 수행합니다.
이미지 및 텍스트 피처에서 디코더 쿼리를 초기화하기 위한 언어 가이드 쿼리 선택 모듈을 구현합니다.
쿼리의 공동 정제를 위한 이미지-텍스트 교차 어텐션 계층을 갖춘 교차 모달 디코더를 추가합니다.
범주 이름 간의 원치 않는 상호 작용을 피하기 위해 서브문장 수준에서 텍스트 프롬프트를 표현합니다.
분류를 위해 예측 객체와 언어 토큰 간의 대조 손실을 사용합니다.
Swin Transformer 이미지 백본과 BERT 텍스트 백본을 활용한 이중 인코더-단일 디코더 아키텍처에서 학습합니다.

실험 결과

연구 질문

RQ1언어 정보를 닫힌 집합 탐지기에 통합하여 오픈 세트 객체 탐지를 가능하게 하려면 어떻게 해야 하나요?
RQ2 Neck, 쿼리, 디코더 전반의 촘촘한 융합이 부분 융합 접근 방식보다 오픈 세트 및 REC 성능을 개선하는가요?
RQ3Grounding DINO가 강력한 제로샷 및 ODinW 결과를 달성하고 지시 표현 이해 데이터 세트로 확장할 수 있나요?
RQ4부분 문장 수준의 텍스트 표현이 다중 범주 기반의 정확한 위치 찾기 성능에 어떤 영향을 미치나요?

주요 결과

Grounding DINO는 COCO 학습 데이터 없이 COCO 제로샷 전이에서 52.5 AP를 달성하고 COCO 미세 조정 후 63.0 AP를 달성합니다.
Grounding DINO는 ODinW 제로샷 벤치마크에서 평균 AP 26.1로 새로운 최첨단을 기록합니다.
Grounding DINO는 유사한 설정에서 LVIS 및 ODinW에서 GLIP보다 우수한 성능을 보이고 더 많은 데이터와 함께 확장성이 더 강하게 나타납니다.
모델은 RefCOCO/+/g 데이터셋으로 오픈 세트 평가를 확장하여 REC 능력을 보여줍니다.
DINO에서 시작해 Grounding DINO를 미리 학습된 DINO 가중치로 초기화할 때 비교적 유사하거나 향상된 성능을 보이는 전이 연구가 확인됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.