[논문 리뷰] Described Object Detection: Liberating Object Detection with Flexible Expressions
이 논문은 Described Object Detection(DOD)와 D3 데이터셋을 도입하여 유연한 언어 표현으로 설명된 객체를 탐지하는 방법을 평가하고, 현재 SOTA 방법을 분석하며, 존재/부재 및 다중 인스턴스 설명을 다루는 더 강력한 기초선으로 OFA-DOD를 제안한다.
Detecting objects based on language information is a popular task that includes Open-Vocabulary object Detection (OVD) and Referring Expression Comprehension (REC). In this paper, we advance them to a more practical setting called Described Object Detection (DOD) by expanding category names to flexible language expressions for OVD and overcoming the limitation of REC only grounding the pre-existing object. We establish the research foundation for DOD by constructing a Description Detection Dataset ($D^3$). This dataset features flexible language expressions, whether short category names or long descriptions, and annotating all described objects on all images without omission. By evaluating previous SOTA methods on $D^3$, we find some troublemakers that fail current REC, OVD, and bi-functional methods. REC methods struggle with confidence scores, rejecting negative instances, and multi-target scenarios, while OVD methods face constraints with long and complex descriptions. Recent bi-functional methods also do not work well on DOD due to their separated training procedures and inference strategies for REC and OVD tasks. Building upon the aforementioned findings, we propose a baseline that largely improves REC methods by reconstructing the training data and introducing a binary classification sub-task, outperforming existing methods. Data and code are available at https://github.com/shikras/d-cube and related works are tracked in https://github.com/Charles-Xie/awesome-described-object-detection.
연구 동기 및 목표
- 짧은 카테고리 명어나 기존 REC 가정 외에 유연한 언어 표현을 활용하는 실용적인 탐지 설정의 동기를 부여한다.
- Description Detection Dataset(D3)을 생성·배포하여 부재 표현을 포함한 완전한 데이터셋 전체 주석을 갖춘다.
- D3에서 기존의 OVD, REC, 이중 기능 방법을 체계적으로 평가하여 DOD 시나리오의 한계를 밝힌다.
- REC 방법을 데이터 재구성 및 이진 관련성 태스크를 통해 강화하고 다중 타겟 탐지를 더욱 잘 처리하는 강력한 기초선(OFA-DOD)을 제안한다.
제안 방법
- 주석이 완전하고 제한 없는 언어 표현 및 부재 설명을 포함하는 탐지 스타일 벤치마크 D3를 구성하고 주석화한다.
- D3에서 OVD, REC, 이중 기능 계열의 SOTA 방법을 평가하여 기준선을 확립한다.
- granularity decomposition, REC를 위한 재구성 학습 데이터, 이진 음성 거부를 가능하게 하는 태스크 분해를 포함한 수정된 OFA 기반의 OFA-DOD를 제안하고 구현한다.
- granularity decomposition, reconstructed data for REC, task decomposition 등의 기여를 정량화하는 어블레이션을 수행한다.
- 실 intra-시나리오 및 inter-시나리오 설정에서 다중 레이블 평균 정밀도(mAP)를 FULL, PRES, ABS 평가 모드로 활용한다.
- 이미지당 인스턴스 수(무-인스턴스, 한-인스턴스, 다중-인스턴스) 및 참조 길이(짧은~매우 긴)에 따른 성능을 분석한다.
실험 결과
연구 질문
- RQ1기존의 OVD, REC 및 이중 기능 방법이 D3에서 도입된 Described Object Detection(DOD) 설정에서 어떻게 성능을 보이는가?
- RQ2객체가 유연한 언어 표현으로 설명되고 부재 설명이 포함될 때 현재 방법의 주요 실패 모드는 무엇인가?
- RQ3OFA를 기반으로 한 수정된 기초선(OFA-DOD)이 DOD에서 위치화, 다중 타깃 처리 및 음성 거부를 개선할 수 있는가?
- RQ4존재 vs 부재 설명이 탐지 성능 및 신뢰도 보정에 어떤 영향을 미치는가?
- RQ5설명 길이와 이미지당 인스턴스 수가 방법 성능에 어떤 영향을 미치는가?
주요 결과
| Task | Method | FULL mAP | PRES mAP | ABS mAP | Inter-scenario FULL mAP | Inter-scenario PRES mAP | Inter-scenario ABS mAP |
|---|---|---|---|---|---|---|---|
| REC | OFA_base | 3.4 | 3.0 | 4.3 | 0.1 | 0.1 | 0.1 |
| REC | OFA_large | 4.2 | 4.1 | 4.6 | 0.1 | 0.1 | 0.1 |
| OVD | CORA_R50 | 6.2 | 6.7 | 5.0 | 2.0 | 2.2 | 1.3 |
| OVD | OWL-ViT_base | 8.6 | 8.5 | 8.8 | 3.2 | 3.7 | 4.7 |
| OVD | OWL-ViT_large | 9.6 | 10.7 | 6.4 | 2.5 | 2.9 | 2.1 |
| Bi-functional | UNINEXT_large | 17.9 | 18.6 | 15.9 | 2.9 | 3.1 | 2.5 |
| Bi-functional | UNINEXT_huge | 20.0 | 20.6 | 18.1 | 3.3 | 3.9 | 1.6 |
| Bi-functional | G-DINO_tiny | 19.2 | 18.5 | 21.2 | 2.3 | 2.5 | 2.1 |
| Bi-functional | G-DINO_base | 20.7 | 20.1 | 22.5 | 2.7 | 2.4 | 3.5 |
| DOD | OFA-DOD_base | 21.6 | 23.7 | 15.4 | 5.7 | 6.9 | 2.3 |
- 기존 REC 방법은 D3에서 신뢰도 추정 및 음성 거부가 불안정하여 다타겟 시나리오에서 성능이 낮다.
- OVD 방법은 D3에서 REC보다 우수하나 길고 복잡한 설명에 취약하다.
- 이중 기능 방법은 일부 기초선보다 우수하지만 인터-시나리오 평가 및 음성 거부에 still 어려움을 겪는다.
- 제안된 OFA-DOD 기초선은 D3에서 REC 성능을 크게 향상시키고 다중 타깃 및 음성 거부를 더 잘 처리하지만 모든 지표에서 아직 SOTA는 아니다.
- 어블레이션 결과는 granularity decomposition, REC를 위한 재구성 데이터, 태스크 분해 각각이 성능 향상에 기여함을 보여주고, 다중 태스크 학습 데이터(탐지, 이미지-텍스트, MLM)가 결과에 영향을 미치며, 일부 설정에서 MLM의 기여가 기대만큼 크지 않다.
- 존재 설명은 대부분의 방법에게 부재 설명보다 탐지에 더 쉬운 반면 REC 방법은 불안정한 신뢰도 점수를 산출하며, OFA-DOD가 점수 간 TP vs FP 구분을 더 명확하게 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.