QUICK REVIEW

[논문 리뷰] Zero-Shot Detection via Vision and Language Knowledge Distillation.

Xiuye Gu, Tsung-Yi Lin|arXiv (Cornell University)|2021. 04. 28.

Domain Adaptation and Few-Shot Learning인용 수 29

한 줄 요약

이 논문은 CLIP와 같은 모델로부터 0-shot 이미지 분류 능력을 두 단계 객체 검출기로 전이하는 시각-언어 지식 정복 방법인 ViLD를 제안한다. 이는 영역 임베딩을 이미지 및 텍스트 임베딩과 정렬함으로써 이루어지며, LVIS에서 0-shot 검출 시 16.1 mask AP$_r$를 달성하여 지도 학습 기반 보다 3.8점 높은 성능을 보이며, PASCAL VOC, COCO, Objects365 등으로 효과적으로 일반화된다.

ABSTRACT

Zero-shot image classification has made promising progress by training the aligned image and text encoders. The goal of this work is to advance zero-shot object detection, which aims to detect novel objects without bounding box nor mask annotations. We propose ViLD, a training method via Vision and Language knowledge Distillation. We distill the knowledge from a pre-trained zero-shot image classification model (e.g., CLIP) into a two-stage detector (e.g., Mask R-CNN). Our method aligns the region embeddings in the detector to the text and image embeddings inferred by the pre-trained model. We use the text embeddings as the detection classifier, obtained by feeding category names into the pre-trained text encoder. We then minimize the distance between the region embeddings and image embeddings, obtained by feeding region proposals into the pre-trained image encoder. During inference, we include text embeddings of novel categories into the detection classifier for zero-shot detection. We benchmark the performance on LVIS dataset by holding out all rare categories as novel categories. ViLD obtains 16.1 mask AP$_r$ with a Mask R-CNN (ResNet-50 FPN) for zero-shot detection, outperforming the supervised counterpart by 3.8. The model can directly transfer to other datasets, achieving 72.2 AP$_{50}$, 36.6 AP and 11.8 AP on PASCAL VOC, COCO and Objects365, respectively.

연구 동기 및 목표

새로운 카테고리의 객체 검출을 위해 바운딩 박스나 마스크 애너테이션 없이도 0-shot 객체 검출을 향상시키는 것.
사전 훈련된 시각-언어 모델을 활용해 0-shot 이미지 분류와 객체 검출 간 격차를 메우는 것.
이미지와 텍스트 임베딩 간의 정렬을 객체 검출기 특징으로 전이하는 지식 정복 프레임워크를 개발하는 것.
재훈련 없이도 새로운 데이터셋에 검출기를 직접 전이할 수 있도록 하는 것.

제안 방법

Mask R-CNN와 같은 두 단계 검출기로 사전 훈련된 CLIP 유사 이미지-텍스트 인코더에서 지식을 정복한다.
사전 훈련된 텍스트 인코더에서 카테고리 이름의 텍스트 임베딩을 검출기 분류 헤드로 사용한다.
영역 임베딩을 사전 훈련된 이미지 인코더의 이미지 임베딩과의 거리 최소화를 통해 정렬한다.
추론 시기에 새로운 카테고리의 텍스트 임베딩을 분류 헤드에 주입하여 0-shot 검출을 수행한다.
영역 임베딩과 해당 이미지 임베딩 간의 대비 손실을 최소화하여 검출기를 훈련한다.
바운딩 박스나 마스크 애너테이션을 요구하지 않고도 사전 훈련 모델의 의미 이해를 활용해 검출기 학습을 이끌어내는 것.

실험 결과

연구 질문

RQ1사전 훈련된 시각-언어 모델에서 지식 정복을 통해 0-shot 객체 검출 성능을 향상시킬 수 있는가?
RQ2어떤 애너테이션 학습 데이터 없이도 검출기가 새로운 카테고리로 얼마나 잘 일반화되는가?
RQ3사전 훈련된 이미지 및 텍스트 임베딩과 영역 임베딩을 정렬함으로써 검출 정확도가 얼마나 향상되는가?
RQ4제안된 방법이 피팅 조정 없이 COCO 및 PASCAL VOC와 같은 다양한 데이터셋으로 효과적으로 전이 가능한가?

주요 결과

ViLD는 Mask R-CNN (ResNet-50 FPN)를 사용하여 LVIS 데이터셋에서 0-shot 검출 시 16.1 mask AP$_r$를 달성하며, 지도 학습 기반 보다 3.8점 높은 성능을 보였다.
모델은 직접적으로 PASCAL VOC로 일반화되어 72.2 AP$_{50}$, 36.6 AP, 11.8 AP를 각각 달성하였다.
추론 시기에 새로운 카테고리의 텍스트 임베딩을 분류 헤드에 주입함으로써 0-shot 검출을 가능하게 하였다.
성능 향상 요인은 사전 훈련된 모델의 이미지 및 텍스트 임베딩과의 효과적인 영역 임베딩 정렬에 기인한다.
재훈련이나 추가 애너테이션 없이도 다양한 데이터셋에서 강력한 0-shot 일반화 능력을 보였다.
결과는 사전 훈련된 시각-언어 모델에서의 정복이 알려지지 않은 카테고리에 대해 검출 성능을 크게 향상시킬 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.