Skip to main content
QUICK REVIEW

[논문 리뷰] Scaling Open-Vocabulary Object Detection

Matthias Minderer, Alexey A. Gritsenko|arXiv (Cornell University)|2023. 06. 16.
Multimodal Machine Learning Applications인용 수 28
한 줄 요약

이 논문은 OWLv2와 OWL-ST를 도입하여 최소 필터링으로 웹 규모 자체 학습을 사용해 오픈-보캐니어리 객체 탐지를 확장하고 LVIS 희귀 클래스에서 최첨단 결과를 달성합니다. LVIS 희귀에 대한 zero-shot 개선은 L/14에서 최대 44.6% mAP, ViT-G/14에서 47.2%에 이릅니다.

ABSTRACT

Open-vocabulary object detection has benefited greatly from pretrained vision-language models, but is still limited by the amount of available detection training data. While detection training data can be expanded by using Web image-text pairs as weak supervision, this has not been done at scales comparable to image-level pretraining. Here, we scale up detection data with self-training, which uses an existing detector to generate pseudo-box annotations on image-text pairs. Major challenges in scaling self-training are the choice of label space, pseudo-annotation filtering, and training efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which address these challenges. OWLv2 surpasses the performance of previous state-of-the-art open-vocabulary detectors already at comparable training scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples, yielding further large improvement: With an L/14 architecture, OWL-ST improves AP on LVIS rare classes, for which the model has seen no human box annotations, from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale training for open-world localization, similar to what has been seen for image classification and language modelling.

연구 동기 및 목표

  • 웹 데이터에서의 풍부한 약지도(position)를 통해 오픈-보캐니어리 탐지 확장의 동기를 제시한다.
  • 최소 필터링과 데이터 중심 라벨 공간을 사용하는 확장 가능한 자체 학습 레시피(OWL-ST)를 개발한다.
  • 토큰 제거, 인스턴스 선택, 모자이크 등으로 계산 UNIT당 보게 되는 이미지 수를 최대화하도록 학습 효율성을 개선한다.
  • LVIS, ODinW 및 실제 세계 데이터셋에서 오픈-보캐니어리 탐지를 평가해 일반화와 미세 조정 효과를 측정한다.

제안 방법

  • WebLI(10B 이미지-텍스트 쌍)를 가짜 주석의 약지도으로 사용한다.
  • 사람이 큐레이션한 고정 어휘와 이미지 텍스트에서 기계 생성된 N-그램 두 가지 라벨 공간 전략을 실험한다.
  • 최소 필터링을 적용한다(신뢰도 임계값: 0.1 이상인 가짜 주석을 모두 보존하고, 이미지당 0.3 이상인 항목이 최소 하나는 있도록 한다).
  • CLIP/SigLIP 시각-언어 백본에서 시작된 DETECTOR를 OWL-ViT 스타일의 탐지 헤드로 초기화하고, 가짜 주석에서 자체 학습한 뒤 LVIS base로 미세 조정할지 선택적으로 수행한다.
  • 훈련 효율성을 개선한다: 패치 분산에 의한 토큰 드롭(~50%), 오브젝트성 헤드를 통해 상위 ~10% 토큰을 선택, 모자이크(최대 6x6 격자)로 배치당 유효한 예시 수를 늘림, 대규모 트랜스포머 훈련의 다른 관행들.
  • 모델 변형 OWLv2는 예제당 FLOPs를 약 50% 감소시키고 OWL-ViT 대비 평균 처리량을 약 2배 향상시키며, 추론 시 동일한 백본 및 헤드를 사용해 모든 학습을 수행한다.

실험 결과

연구 질문

  • RQ1웹 규모의 약지도에서 인간 주석 상자 없이 얼마나 확장 가능한가?
  • RQ2라벨 공간 설계(큐레이션 대 기계 생성 대 혼합)가 미보이는 클래스 및 실제 세계 데이터에 대한 일반화에 어떤 영향을 주는가?
  • RQ3대규모에서의 편향과 분산 간의 균형을 최적화하는 가짜 주석 필터링 전략은 무엇인가?
  • RQ4토큰 드롭, 인스턴스 선택, 모자이크 같은 효율성 최적화가 규모에 따른 탐지 정확도에 어떤 영향을 주는가?
  • RQ5오픈-보캐니어리 성능 및 분포 로버스트니스에 대한 미세 조정의 효과는 무엇이며 앙상블이 트레이드-오프를 완화할 수 있는가?

주요 결과

방법백본자기 학습 데이터자기 학습 어휘사람 박스 주석LVIS AP_rareLVIS AP_val_allLVIS AP_val_rareODinW_AP_mean메모
OWL-STCLIP B/16WebLIN-gramsO+VG29.635.427.0-3.2표 1의 행 11에서 미세 조정 없는 오픈-보캐니어리
OWL-STCLIP L/14WebLIN-gramsO+VG38.139.033.5-행 12의 미세 조정 없는 오픈-보캐니어리
OWL-STSigLIP G/14WebLIN-gramsO+VG37.840.933.7-행 13의 미세 조정 없는 오픈-보캐니어리
OWL-ST+FTCLIP B/16WebLIN-gramsO+VG , LVIS_base47.237.841.8-LVIS_base 미세 조정으로 최상의 오픈-보캐니어리(행 14)
OWL-ST+FTCLIP L/14WebLIN-gramsO+VG , LVIS_base54.146.149.4-LVIS_base 미세 조정 오픈-보캐니어리 최적 행 15
OWL-ST+FTSigLIP G/14WebLIN-gramsO+VG , LVIS_base51.350.947.0-LVIS_base 미세 조정 오픈-보캐니어리 최적 행 16
  • 가짜 N-그램 프롬프트를 사용한 WebLI 기반 OWL-ST는 인간 박스 주석 없이도 강력한 오픈-보캐니어리 성능을 보여준다.
  • LVIS base 미세 조정을 받으면 OWL-ST+FT는 ViT-G/14에서 LVIS mAPRare 47.2%, ViT-L/14에서 44.6%를 달성하며, 보이지 않는 클래스에 대한 이전 연구보다 큰 이득을 보여준다.
  • 대규모 자체 학습은 합리적인 계산 예산에서 큰 이득을 주며 이미지 수준 모델과 유사한 스케일링 추세를 따르고, 더 큰 모델이 더 많은 데이터에서 더 많은 혜택을 받는다.
  • 순수 기계 생성 라벨 공간(N-그램)은 고정 큐레이션 어휘보다 보이지 않는 데이터와 실제 세계 데이터에 더 잘 일반화하며, 혼합 라벨 공간이 다양한 설정에서 잘 작동한다.
  • 미세 조정은 대상 데이터셋의 성능을 높이지만 오픈 월드/일반화 성능은 감소시킬 수 있으며, 사전-미세 조정 모델과 포스트-미세 조정 모델의 가중치 공간 앙상블로 이를 완화할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.