QUICK REVIEW

[논문 리뷰] Described Object Detection: Liberating Object Detection with Flexible Expressions

Chi Xie, Zhao Zhang|arXiv (Cornell University)|2023. 07. 24.

Multimodal Machine Learning Applications인용 수 9

한 줄 요약

이 논문은 Described Object Detection(DOD)와 D3 데이터셋을 도입하여 유연한 언어 표현으로 설명된 객체를 탐지하는 방법을 평가하고, 현재 SOTA 방법을 분석하며, 존재/부재 및 다중 인스턴스 설명을 다루는 더 강력한 기초선으로 OFA-DOD를 제안한다.

ABSTRACT

Detecting objects based on language information is a popular task that includes Open-Vocabulary object Detection (OVD) and Referring Expression Comprehension (REC). In this paper, we advance them to a more practical setting called Described Object Detection (DOD) by expanding category names to flexible language expressions for OVD and overcoming the limitation of REC only grounding the pre-existing object. We establish the research foundation for DOD by constructing a Description Detection Dataset ($D^3$). This dataset features flexible language expressions, whether short category names or long descriptions, and annotating all described objects on all images without omission. By evaluating previous SOTA methods on $D^3$, we find some troublemakers that fail current REC, OVD, and bi-functional methods. REC methods struggle with confidence scores, rejecting negative instances, and multi-target scenarios, while OVD methods face constraints with long and complex descriptions. Recent bi-functional methods also do not work well on DOD due to their separated training procedures and inference strategies for REC and OVD tasks. Building upon the aforementioned findings, we propose a baseline that largely improves REC methods by reconstructing the training data and introducing a binary classification sub-task, outperforming existing methods. Data and code are available at https://github.com/shikras/d-cube and related works are tracked in https://github.com/Charles-Xie/awesome-described-object-detection.

연구 동기 및 목표

짧은 카테고리 명어나 기존 REC 가정 외에 유연한 언어 표현을 활용하는 실용적인 탐지 설정의 동기를 부여한다.
Description Detection Dataset(D3)을 생성·배포하여 부재 표현을 포함한 완전한 데이터셋 전체 주석을 갖춘다.
D3에서 기존의 OVD, REC, 이중 기능 방법을 체계적으로 평가하여 DOD 시나리오의 한계를 밝힌다.
REC 방법을 데이터 재구성 및 이진 관련성 태스크를 통해 강화하고 다중 타겟 탐지를 더욱 잘 처리하는 강력한 기초선(OFA-DOD)을 제안한다.

제안 방법

주석이 완전하고 제한 없는 언어 표현 및 부재 설명을 포함하는 탐지 스타일 벤치마크 D3를 구성하고 주석화한다.
D3에서 OVD, REC, 이중 기능 계열의 SOTA 방법을 평가하여 기준선을 확립한다.
granularity decomposition, REC를 위한 재구성 학습 데이터, 이진 음성 거부를 가능하게 하는 태스크 분해를 포함한 수정된 OFA 기반의 OFA-DOD를 제안하고 구현한다.
granularity decomposition, reconstructed data for REC, task decomposition 등의 기여를 정량화하는 어블레이션을 수행한다.
실 intra-시나리오 및 inter-시나리오 설정에서 다중 레이블 평균 정밀도(mAP)를 FULL, PRES, ABS 평가 모드로 활용한다.
이미지당 인스턴스 수(무-인스턴스, 한-인스턴스, 다중-인스턴스) 및 참조 길이(짧은~매우 긴)에 따른 성능을 분석한다.

실험 결과

연구 질문

RQ1기존의 OVD, REC 및 이중 기능 방법이 D3에서 도입된 Described Object Detection(DOD) 설정에서 어떻게 성능을 보이는가?
RQ2객체가 유연한 언어 표현으로 설명되고 부재 설명이 포함될 때 현재 방법의 주요 실패 모드는 무엇인가?
RQ3OFA를 기반으로 한 수정된 기초선(OFA-DOD)이 DOD에서 위치화, 다중 타깃 처리 및 음성 거부를 개선할 수 있는가?
RQ4존재 vs 부재 설명이 탐지 성능 및 신뢰도 보정에 어떤 영향을 미치는가?
RQ5설명 길이와 이미지당 인스턴스 수가 방법 성능에 어떤 영향을 미치는가?

주요 결과

Task	Method	FULL mAP	PRES mAP	ABS mAP	Inter-scenario FULL mAP	Inter-scenario PRES mAP	Inter-scenario ABS mAP
REC	OFA_base	3.4	3.0	4.3	0.1	0.1	0.1
REC	OFA_large	4.2	4.1	4.6	0.1	0.1	0.1
OVD	CORA_R50	6.2	6.7	5.0	2.0	2.2	1.3
OVD	OWL-ViT_base	8.6	8.5	8.8	3.2	3.7	4.7
OVD	OWL-ViT_large	9.6	10.7	6.4	2.5	2.9	2.1
Bi-functional	UNINEXT_large	17.9	18.6	15.9	2.9	3.1	2.5
Bi-functional	UNINEXT_huge	20.0	20.6	18.1	3.3	3.9	1.6
Bi-functional	G-DINO_tiny	19.2	18.5	21.2	2.3	2.5	2.1
Bi-functional	G-DINO_base	20.7	20.1	22.5	2.7	2.4	3.5
DOD	OFA-DOD_base	21.6	23.7	15.4	5.7	6.9	2.3

기존 REC 방법은 D3에서 신뢰도 추정 및 음성 거부가 불안정하여 다타겟 시나리오에서 성능이 낮다.
OVD 방법은 D3에서 REC보다 우수하나 길고 복잡한 설명에 취약하다.
이중 기능 방법은 일부 기초선보다 우수하지만 인터-시나리오 평가 및 음성 거부에 still 어려움을 겪는다.
제안된 OFA-DOD 기초선은 D3에서 REC 성능을 크게 향상시키고 다중 타깃 및 음성 거부를 더 잘 처리하지만 모든 지표에서 아직 SOTA는 아니다.
어블레이션 결과는 granularity decomposition, REC를 위한 재구성 데이터, 태스크 분해 각각이 성능 향상에 기여함을 보여주고, 다중 태스크 학습 데이터(탐지, 이미지-텍스트, MLM)가 결과에 영향을 미치며, 일부 설정에서 MLM의 기여가 기대만큼 크지 않다.
존재 설명은 대부분의 방법에게 부재 설명보다 탐지에 더 쉬운 반면 REC 방법은 불안정한 신뢰도 점수를 산출하며, OFA-DOD가 점수 간 TP vs FP 구분을 더 명확하게 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.