Skip to main content
QUICK REVIEW

[논문 리뷰] Described Object Detection: Liberating Object Detection with Flexible Expressions

Chi Xie, Zhao Zhang|arXiv (Cornell University)|2023. 07. 24.
Multimodal Machine Learning Applications인용 수 9
한 줄 요약

이 논문은 Described Object Detection(DOD)와 D3 데이터셋을 도입하여 유연한 언어 표현으로 설명된 객체를 탐지하는 방법을 평가하고, 현재 SOTA 방법을 분석하며, 존재/부재 및 다중 인스턴스 설명을 다루는 더 강력한 기초선으로 OFA-DOD를 제안한다.

ABSTRACT

Detecting objects based on language information is a popular task that includes Open-Vocabulary object Detection (OVD) and Referring Expression Comprehension (REC). In this paper, we advance them to a more practical setting called Described Object Detection (DOD) by expanding category names to flexible language expressions for OVD and overcoming the limitation of REC only grounding the pre-existing object. We establish the research foundation for DOD by constructing a Description Detection Dataset ($D^3$). This dataset features flexible language expressions, whether short category names or long descriptions, and annotating all described objects on all images without omission. By evaluating previous SOTA methods on $D^3$, we find some troublemakers that fail current REC, OVD, and bi-functional methods. REC methods struggle with confidence scores, rejecting negative instances, and multi-target scenarios, while OVD methods face constraints with long and complex descriptions. Recent bi-functional methods also do not work well on DOD due to their separated training procedures and inference strategies for REC and OVD tasks. Building upon the aforementioned findings, we propose a baseline that largely improves REC methods by reconstructing the training data and introducing a binary classification sub-task, outperforming existing methods. Data and code are available at https://github.com/shikras/d-cube and related works are tracked in https://github.com/Charles-Xie/awesome-described-object-detection.

연구 동기 및 목표

  • 짧은 카테고리 명어나 기존 REC 가정 외에 유연한 언어 표현을 활용하는 실용적인 탐지 설정의 동기를 부여한다.
  • Description Detection Dataset(D3)을 생성·배포하여 부재 표현을 포함한 완전한 데이터셋 전체 주석을 갖춘다.
  • D3에서 기존의 OVD, REC, 이중 기능 방법을 체계적으로 평가하여 DOD 시나리오의 한계를 밝힌다.
  • REC 방법을 데이터 재구성 및 이진 관련성 태스크를 통해 강화하고 다중 타겟 탐지를 더욱 잘 처리하는 강력한 기초선(OFA-DOD)을 제안한다.

제안 방법

  • 주석이 완전하고 제한 없는 언어 표현 및 부재 설명을 포함하는 탐지 스타일 벤치마크 D3를 구성하고 주석화한다.
  • D3에서 OVD, REC, 이중 기능 계열의 SOTA 방법을 평가하여 기준선을 확립한다.
  • granularity decomposition, REC를 위한 재구성 학습 데이터, 이진 음성 거부를 가능하게 하는 태스크 분해를 포함한 수정된 OFA 기반의 OFA-DOD를 제안하고 구현한다.
  • granularity decomposition, reconstructed data for REC, task decomposition 등의 기여를 정량화하는 어블레이션을 수행한다.
  • 실 intra-시나리오 및 inter-시나리오 설정에서 다중 레이블 평균 정밀도(mAP)를 FULL, PRES, ABS 평가 모드로 활용한다.
  • 이미지당 인스턴스 수(무-인스턴스, 한-인스턴스, 다중-인스턴스) 및 참조 길이(짧은~매우 긴)에 따른 성능을 분석한다.

실험 결과

연구 질문

  • RQ1기존의 OVD, REC 및 이중 기능 방법이 D3에서 도입된 Described Object Detection(DOD) 설정에서 어떻게 성능을 보이는가?
  • RQ2객체가 유연한 언어 표현으로 설명되고 부재 설명이 포함될 때 현재 방법의 주요 실패 모드는 무엇인가?
  • RQ3OFA를 기반으로 한 수정된 기초선(OFA-DOD)이 DOD에서 위치화, 다중 타깃 처리 및 음성 거부를 개선할 수 있는가?
  • RQ4존재 vs 부재 설명이 탐지 성능 및 신뢰도 보정에 어떤 영향을 미치는가?
  • RQ5설명 길이와 이미지당 인스턴스 수가 방법 성능에 어떤 영향을 미치는가?

주요 결과

TaskMethodFULL mAPPRES mAPABS mAPInter-scenario FULL mAPInter-scenario PRES mAPInter-scenario ABS mAP
RECOFA_base3.43.04.30.10.10.1
RECOFA_large4.24.14.60.10.10.1
OVDCORA_R506.26.75.02.02.21.3
OVDOWL-ViT_base8.68.58.83.23.74.7
OVDOWL-ViT_large9.610.76.42.52.92.1
Bi-functionalUNINEXT_large17.918.615.92.93.12.5
Bi-functionalUNINEXT_huge20.020.618.13.33.91.6
Bi-functionalG-DINO_tiny19.218.521.22.32.52.1
Bi-functionalG-DINO_base20.720.122.52.72.43.5
DODOFA-DOD_base21.623.715.45.76.92.3
  • 기존 REC 방법은 D3에서 신뢰도 추정 및 음성 거부가 불안정하여 다타겟 시나리오에서 성능이 낮다.
  • OVD 방법은 D3에서 REC보다 우수하나 길고 복잡한 설명에 취약하다.
  • 이중 기능 방법은 일부 기초선보다 우수하지만 인터-시나리오 평가 및 음성 거부에 still 어려움을 겪는다.
  • 제안된 OFA-DOD 기초선은 D3에서 REC 성능을 크게 향상시키고 다중 타깃 및 음성 거부를 더 잘 처리하지만 모든 지표에서 아직 SOTA는 아니다.
  • 어블레이션 결과는 granularity decomposition, REC를 위한 재구성 데이터, 태스크 분해 각각이 성능 향상에 기여함을 보여주고, 다중 태스크 학습 데이터(탐지, 이미지-텍스트, MLM)가 결과에 영향을 미치며, 일부 설정에서 MLM의 기여가 기대만큼 크지 않다.
  • 존재 설명은 대부분의 방법에게 부재 설명보다 탐지에 더 쉬운 반면 REC 방법은 불안정한 신뢰도 점수를 산출하며, OFA-DOD가 점수 간 TP vs FP 구분을 더 명확하게 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.