QUICK REVIEW

[논문 리뷰] Learning Object-Language Alignments for Open-Vocabulary Object Detection

Chuang Lin, Peize Sun|arXiv (Cornell University)|2022. 11. 27.

Multimodal Machine Learning Applications인용 수 36

한 줄 요약

VLDet는 이미지-텍스트 쌍으로부터 직접 region-word 정합을 해결하여 이분 매칭 문제를 통해 개방 어휘 객체 탐지를 가능하게 하며, 바운딩 박스 주석 없이도 수행한다. COCO와 LVIS 개방-어휘 벤치마크에서 새로운 클래스 탐지의 최첨단 성능을 달성한다.

ABSTRACT

Existing object detection methods are bounded in a fixed-set vocabulary by costly labeled data. When dealing with novel categories, the model has to be retrained with more bounding box annotations. Natural language supervision is an attractive alternative for its annotation-free attributes and broader object concepts. However, learning open-vocabulary object detection from language is challenging since image-text pairs do not contain fine-grained object-language alignments. Previous solutions rely on either expensive grounding annotations or distilling classification-oriented vision models. In this paper, we propose a novel open-vocabulary object detection framework directly learning from image-text pair data. We formulate object-language alignment as a set matching problem between a set of image region features and a set of word embeddings. It enables us to train an open-vocabulary object detector on image-text pairs in a much simple and effective way. Extensive experiments on two benchmark datasets, COCO and LVIS, demonstrate our superior performance over the competing approaches on novel categories, e.g. achieving 32.0% mAP on COCO and 21.7% mask mAP on LVIS. Code is available at: https://github.com/clin1223/VLDet.

연구 동기 및 목표

새로운 바운딩 박스 주석 없이도 신규 카테고리를 인식하기 위해 개방-어휘 객체 탐지를 고무한다.
비싸고 번거로운 grounding 데이터를 우회하는 언어 감독 학습 패러다임을 제안한다.
region-word 정합을 이분 매칭으로 풀 수 있는 집합 매칭 문제로 형식화한다.
보이거나 보이지 않는 클래스에 일반화하기 위해 이미지-텍스트 감독을 2단계 탐지기에 통합한다.

제안 방법

이미지 영역을 region features의 집합으로 표현하고 자막의 명사를 word embeddings의 집합으로 표현한다.
region features와 word embeddings 사이의 점곱을 통해 region-word 정합 점수를 계산한다.
Hungarian 알고리즘으로 region-word 할당을 해결하여 이미지-캡션 쌍당 일대일 region-word 매칭을 얻는다.
이분 매칭 결과에 조건화된 region-word cross-entropy 손실로 학습한다.
이미지 전체와 캡션을 특별한 region/word 쌍으로 다루는 이미지-텍스트 정합 손실을 추가로 포함하여 보조를 강화한다.
Faster R-CNN 기준에서 분류 헤드 교체를 위한 캡션의 단어와 캡션 단어를 임베딩하는 CLIP를 고정된 텍스트 인코더로 사용한다.

실험 결과

연구 질문

RQ1개방 어휘 객체 탐지를 grounding 주석 없이 이미지-텍스트 쌍에서 직접 학습할 수 있는가?
RQ2region-word 정합을 집합 매칭 문제로 형식화하는 것이 신규 카테고리 탐지 성능을 향상시키는가?
RQ3객체 어휘의 크기와 매칭 전략이 개방-어휘 일반화에 어떤 영향을 미치는가?
RQ4region-word 정합과 함께 이미지-텍스트 정합 손실을 도입하는 것이 성능에 어떤 영향을 주는가?
RQ5제안된 방법이 재학습 없이 다른 데이터셋과 도메인으로 얼마나 잘 전이되는가?

주요 결과

Method	Novel AP	Base AP	Overall AP
Base-only	1.3	52.8	39.3
OVR-CNN (Zareian et al., 2021)	22.8	46.0	39.9
Detic (Zhou et al., 2022)	27.8	47.1	42.0
RegionCLIP (Zhong et al., 2022)	26.8	54.8	47.5
ViLD (Gu et al., 2021)	27.6	59.5	51.3
PB-OVD (Gao et al., 2021)	30.8	46.1	42.1
Our (VLDet)	32.0	50.6	45.8

VLDet는 보고된 설정에서 개방 어휘 COCO에서 신규 클래스 mAP 32.0, LVIS에서 21.7로 최첨단 성능을 달성한다.
COCO에서 VLDet는 COCO Caption 데이터만으로 학습하는 조건에서 신규 클래스 탐지에서 PB-OVD 및 관련 방법을 능가한다.
CC3M 데이터를 사용한 LVIS에서 VLDet는 DetPro 및 다른 베이스라인보다 신규 클래스 마스크 AP에서 더 높은 성능을 보이며(신규 클래스 RN50 백본 21.7; Swin-B로 26.3), 더 우수하다.
일대일(region-word) 할당(Hungarian)은 신규 클래스 AP에서 다대일(Sinkhorn)보다 성능이 더 우수하다(OV-COCO 32.0 대 29.1; OV-LVIS 21.7 대 18.5).
더 큰 개방 어휘(캡션의 모든 명사 사용)는 미리 정의된 카테고리 이름으로 제한하는 것보다 보지 않은 클래스에 대한 일반화를 개선한다.
region-word 정합과 이미지-텍스트 정합 손실을 함께 최적화하면 둘 다 단독으로 최적화하는 것보다 더 강한 성능을 보인다.
이 접근법은 재학습 없이 VOC 및 LVIS로의 전이 성능을 보여주며 도메인 간 강건성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.