QUICK REVIEW

[논문 리뷰] Scaling Open-Vocabulary Object Detection

Matthias Minderer, Alexey A. Gritsenko|arXiv (Cornell University)|2023. 06. 16.

Multimodal Machine Learning Applications인용 수 28

한 줄 요약

이 논문은 OWLv2와 OWL-ST를 도입하여 최소 필터링으로 웹 규모 자체 학습을 사용해 오픈-보캐니어리 객체 탐지를 확장하고 LVIS 희귀 클래스에서 최첨단 결과를 달성합니다. LVIS 희귀에 대한 zero-shot 개선은 L/14에서 최대 44.6% mAP, ViT-G/14에서 47.2%에 이릅니다.

ABSTRACT

Open-vocabulary object detection has benefited greatly from pretrained vision-language models, but is still limited by the amount of available detection training data. While detection training data can be expanded by using Web image-text pairs as weak supervision, this has not been done at scales comparable to image-level pretraining. Here, we scale up detection data with self-training, which uses an existing detector to generate pseudo-box annotations on image-text pairs. Major challenges in scaling self-training are the choice of label space, pseudo-annotation filtering, and training efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which address these challenges. OWLv2 surpasses the performance of previous state-of-the-art open-vocabulary detectors already at comparable training scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples, yielding further large improvement: With an L/14 architecture, OWL-ST improves AP on LVIS rare classes, for which the model has seen no human box annotations, from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale training for open-world localization, similar to what has been seen for image classification and language modelling.

연구 동기 및 목표

웹 데이터에서의 풍부한 약지도(position)를 통해 오픈-보캐니어리 탐지 확장의 동기를 제시한다.
최소 필터링과 데이터 중심 라벨 공간을 사용하는 확장 가능한 자체 학습 레시피(OWL-ST)를 개발한다.
토큰 제거, 인스턴스 선택, 모자이크 등으로 계산 UNIT당 보게 되는 이미지 수를 최대화하도록 학습 효율성을 개선한다.
LVIS, ODinW 및 실제 세계 데이터셋에서 오픈-보캐니어리 탐지를 평가해 일반화와 미세 조정 효과를 측정한다.

제안 방법

WebLI(10B 이미지-텍스트 쌍)를 가짜 주석의 약지도으로 사용한다.
사람이 큐레이션한 고정 어휘와 이미지 텍스트에서 기계 생성된 N-그램 두 가지 라벨 공간 전략을 실험한다.
최소 필터링을 적용한다(신뢰도 임계값: 0.1 이상인 가짜 주석을 모두 보존하고, 이미지당 0.3 이상인 항목이 최소 하나는 있도록 한다).
CLIP/SigLIP 시각-언어 백본에서 시작된 DETECTOR를 OWL-ViT 스타일의 탐지 헤드로 초기화하고, 가짜 주석에서 자체 학습한 뒤 LVIS base로 미세 조정할지 선택적으로 수행한다.
훈련 효율성을 개선한다: 패치 분산에 의한 토큰 드롭(~50%), 오브젝트성 헤드를 통해 상위 ~10% 토큰을 선택, 모자이크(최대 6x6 격자)로 배치당 유효한 예시 수를 늘림, 대규모 트랜스포머 훈련의 다른 관행들.
모델 변형 OWLv2는 예제당 FLOPs를 약 50% 감소시키고 OWL-ViT 대비 평균 처리량을 약 2배 향상시키며, 추론 시 동일한 백본 및 헤드를 사용해 모든 학습을 수행한다.

실험 결과

연구 질문

RQ1웹 규모의 약지도에서 인간 주석 상자 없이 얼마나 확장 가능한가?
RQ2라벨 공간 설계(큐레이션 대 기계 생성 대 혼합)가 미보이는 클래스 및 실제 세계 데이터에 대한 일반화에 어떤 영향을 주는가?
RQ3대규모에서의 편향과 분산 간의 균형을 최적화하는 가짜 주석 필터링 전략은 무엇인가?
RQ4토큰 드롭, 인스턴스 선택, 모자이크 같은 효율성 최적화가 규모에 따른 탐지 정확도에 어떤 영향을 주는가?
RQ5오픈-보캐니어리 성능 및 분포 로버스트니스에 대한 미세 조정의 효과는 무엇이며 앙상블이 트레이드-오프를 완화할 수 있는가?

주요 결과

방법	백본	자기 학습 데이터	자기 학습 어휘	사람 박스 주석	LVIS AP_rare	LVIS AP_val_all	LVIS AP_val_rare	ODinW_AP_mean	메모
OWL-ST	CLIP B/16	WebLI	N-grams	O+VG	29.6	35.4	27.0	-3.2	표 1의 행 11에서 미세 조정 없는 오픈-보캐니어리
OWL-ST	CLIP L/14	WebLI	N-grams	O+VG	38.1	39.0	33.5	-	행 12의 미세 조정 없는 오픈-보캐니어리
OWL-ST	SigLIP G/14	WebLI	N-grams	O+VG	37.8	40.9	33.7	-	행 13의 미세 조정 없는 오픈-보캐니어리
OWL-ST+FT	CLIP B/16	WebLI	N-grams	O+VG , LVIS_base	47.2	37.8	41.8	-	LVIS_base 미세 조정으로 최상의 오픈-보캐니어리(행 14)
OWL-ST+FT	CLIP L/14	WebLI	N-grams	O+VG , LVIS_base	54.1	46.1	49.4	-	LVIS_base 미세 조정 오픈-보캐니어리 최적 행 15
OWL-ST+FT	SigLIP G/14	WebLI	N-grams	O+VG , LVIS_base	51.3	50.9	47.0	-	LVIS_base 미세 조정 오픈-보캐니어리 최적 행 16

가짜 N-그램 프롬프트를 사용한 WebLI 기반 OWL-ST는 인간 박스 주석 없이도 강력한 오픈-보캐니어리 성능을 보여준다.
LVIS base 미세 조정을 받으면 OWL-ST+FT는 ViT-G/14에서 LVIS mAPRare 47.2%, ViT-L/14에서 44.6%를 달성하며, 보이지 않는 클래스에 대한 이전 연구보다 큰 이득을 보여준다.
대규모 자체 학습은 합리적인 계산 예산에서 큰 이득을 주며 이미지 수준 모델과 유사한 스케일링 추세를 따르고, 더 큰 모델이 더 많은 데이터에서 더 많은 혜택을 받는다.
순수 기계 생성 라벨 공간(N-그램)은 고정 큐레이션 어휘보다 보이지 않는 데이터와 실제 세계 데이터에 더 잘 일반화하며, 혼합 라벨 공간이 다양한 설정에서 잘 작동한다.
미세 조정은 대상 데이터셋의 성능을 높이지만 오픈 월드/일반화 성능은 감소시킬 수 있으며, 사전-미세 조정 모델과 포스트-미세 조정 모델의 가중치 공간 앙상블로 이를 완화할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.