Skip to main content
QUICK REVIEW

[논문 리뷰] Zero-Shot Detection via Vision and Language Knowledge Distillation.

Xiuye Gu, Tsung-Yi Lin|arXiv (Cornell University)|2021. 04. 28.
Domain Adaptation and Few-Shot Learning인용 수 29
한 줄 요약

이 논문은 CLIP와 같은 모델로부터 0-shot 이미지 분류 능력을 두 단계 객체 검출기로 전이하는 시각-언어 지식 정복 방법인 ViLD를 제안한다. 이는 영역 임베딩을 이미지 및 텍스트 임베딩과 정렬함으로써 이루어지며, LVIS에서 0-shot 검출 시 16.1 mask AP$_r$를 달성하여 지도 학습 기반 보다 3.8점 높은 성능을 보이며, PASCAL VOC, COCO, Objects365 등으로 효과적으로 일반화된다.

ABSTRACT

Zero-shot image classification has made promising progress by training the aligned image and text encoders. The goal of this work is to advance zero-shot object detection, which aims to detect novel objects without bounding box nor mask annotations. We propose ViLD, a training method via Vision and Language knowledge Distillation. We distill the knowledge from a pre-trained zero-shot image classification model (e.g., CLIP) into a two-stage detector (e.g., Mask R-CNN). Our method aligns the region embeddings in the detector to the text and image embeddings inferred by the pre-trained model. We use the text embeddings as the detection classifier, obtained by feeding category names into the pre-trained text encoder. We then minimize the distance between the region embeddings and image embeddings, obtained by feeding region proposals into the pre-trained image encoder. During inference, we include text embeddings of novel categories into the detection classifier for zero-shot detection. We benchmark the performance on LVIS dataset by holding out all rare categories as novel categories. ViLD obtains 16.1 mask AP$_r$ with a Mask R-CNN (ResNet-50 FPN) for zero-shot detection, outperforming the supervised counterpart by 3.8. The model can directly transfer to other datasets, achieving 72.2 AP$_{50}$, 36.6 AP and 11.8 AP on PASCAL VOC, COCO and Objects365, respectively.

연구 동기 및 목표

  • 새로운 카테고리의 객체 검출을 위해 바운딩 박스나 마스크 애너테이션 없이도 0-shot 객체 검출을 향상시키는 것.
  • 사전 훈련된 시각-언어 모델을 활용해 0-shot 이미지 분류와 객체 검출 간 격차를 메우는 것.
  • 이미지와 텍스트 임베딩 간의 정렬을 객체 검출기 특징으로 전이하는 지식 정복 프레임워크를 개발하는 것.
  • 재훈련 없이도 새로운 데이터셋에 검출기를 직접 전이할 수 있도록 하는 것.

제안 방법

  • Mask R-CNN와 같은 두 단계 검출기로 사전 훈련된 CLIP 유사 이미지-텍스트 인코더에서 지식을 정복한다.
  • 사전 훈련된 텍스트 인코더에서 카테고리 이름의 텍스트 임베딩을 검출기 분류 헤드로 사용한다.
  • 영역 임베딩을 사전 훈련된 이미지 인코더의 이미지 임베딩과의 거리 최소화를 통해 정렬한다.
  • 추론 시기에 새로운 카테고리의 텍스트 임베딩을 분류 헤드에 주입하여 0-shot 검출을 수행한다.
  • 영역 임베딩과 해당 이미지 임베딩 간의 대비 손실을 최소화하여 검출기를 훈련한다.
  • 바운딩 박스나 마스크 애너테이션을 요구하지 않고도 사전 훈련 모델의 의미 이해를 활용해 검출기 학습을 이끌어내는 것.

실험 결과

연구 질문

  • RQ1사전 훈련된 시각-언어 모델에서 지식 정복을 통해 0-shot 객체 검출 성능을 향상시킬 수 있는가?
  • RQ2어떤 애너테이션 학습 데이터 없이도 검출기가 새로운 카테고리로 얼마나 잘 일반화되는가?
  • RQ3사전 훈련된 이미지 및 텍스트 임베딩과 영역 임베딩을 정렬함으로써 검출 정확도가 얼마나 향상되는가?
  • RQ4제안된 방법이 피팅 조정 없이 COCO 및 PASCAL VOC와 같은 다양한 데이터셋으로 효과적으로 전이 가능한가?

주요 결과

  • ViLD는 Mask R-CNN (ResNet-50 FPN)를 사용하여 LVIS 데이터셋에서 0-shot 검출 시 16.1 mask AP$_r$를 달성하며, 지도 학습 기반 보다 3.8점 높은 성능을 보였다.
  • 모델은 직접적으로 PASCAL VOC로 일반화되어 72.2 AP$_{50}$, 36.6 AP, 11.8 AP를 각각 달성하였다.
  • 추론 시기에 새로운 카테고리의 텍스트 임베딩을 분류 헤드에 주입함으로써 0-shot 검출을 가능하게 하였다.
  • 성능 향상 요인은 사전 훈련된 모델의 이미지 및 텍스트 임베딩과의 효과적인 영역 임베딩 정렬에 기인한다.
  • 재훈련이나 추가 애너테이션 없이도 다양한 데이터셋에서 강력한 0-shot 일반화 능력을 보였다.
  • 결과는 사전 훈련된 시각-언어 모델에서의 정복이 알려지지 않은 카테고리에 대해 검출 성능을 크게 향상시킬 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.