QUICK REVIEW

[논문 리뷰] Localizing Objects with Self-Supervised Transformers and no Labels

Oriane Siméoni, Gilles Puy|arXiv (Cornell University)|2021. 09. 29.

Advanced Neural Network Applications참고 문헌 77인용 수 107

한 줄 요약

LOST는 라벨 없이 단일 이미지에서 패치 수준의 self-supervised transformer 특징을 사용해 객체를 로컬라이즈하며, 비지도 객체 발견에서 최첨단 CorLoc를 달성하고, 비지도 클래스 불가지론 및 클래스 인식 검출로의 확장을 가능하게 한다.

ABSTRACT

Localizing objects in image collections without supervision can help to avoid expensive annotation campaigns. We propose a simple approach to this problem, that leverages the activation features of a vision transformer pre-trained in a self-supervised manner. Our method, LOST, does not require any external object proposal nor any exploration of the image collection; it operates on a single image. Yet, we outperform state-of-the-art object discovery methods by up to 8 CorLoc points on PASCAL VOC 2012. We also show that training a class-agnostic detector on the discovered objects boosts results by another 7 points. Moreover, we show promising results on the unsupervised object discovery task. The code to reproduce our results can be found at https://github.com/valeoai/LOST.

연구 동기 및 목표

주석 없이 이미지 모음에서 객체 로컬라이제이션의 필요성을 제기해 라벨링 비용을 줄인다.
자기 감독 비전 트랜스포머의 패치 수준 상관관계로 단일 이미지 내 객체를 로컬라이즈한다.
시드 기반 로컬라이제이션이 영역 제안보다 우수하고 다운스트림 비지도 탐지 작업을 가능하게 함을 입증한다.
LOST로부터의 의사 라벨이 클래스 불가지론 및 클래스 인식 탐 detections를 감독 없이 학습하는 데 활용될 수 있음을 보여준다.

제안 방법

DINO로 사전 학습된 비전 트랜스포머를 사용해 단일 이미지에서 패치 기반 특징을 추출한다.
패치 특징 간 양(positive) 상관관계로 패치 유사성 그래프를 구성하고 이 그래프에서 차수가 가장 낮은 패치를 初 시드를 식별한다.
시드를 확장하여 시드와 양의 상관 관계를 가지며 차수가 낮은 집합에 위치한 패치를 순차적으로 추가한다.
시드와 이미지 패치를 상관시켜 이진 객체 마스크를 계산하고 시드를 포함하는 가장 큰 연속 구성요소에서 객체 바운딩 박스를 추출한다.
LOST 박스로 클래스-불가지론 탐지기를 학습해 이미지당 다중 객체 탐지를 얻는다.
발견된 객체의 CLS 토큰을 클러스터링해 의사 라벨을 얻고, 헝가리안 매칭을 사용해 clusters를 실제 클래스에 매핑하여 평가한다.

실험 결과

연구 질문

RQ1자기 감독 트랜스포머의 활성화가 주석 없이도 단일 이미지 내 객체를 로컬라이즈할 수 있는가?
RQ2패치 상관관계 기반의 시드 선택 및 시드 확장이 로컬라이제이션 품질에 어떤 영향을 미치는가?
RQ3LOST 기반 박스가 클래스 불가지론 탐지기에 효과적으로 학습되고 클러스터링 기반 의사 라벨과 결합될 때 비지도 객체 탐지를 개선하는가?

주요 결과

방법	VOC07_trainval	VOC12_trainval	COCO_20k
선택적 검색	18.8	20.9	16.0
엣지박스	31.1	31.6	28.8
Kim et al.	43.9	46.4	35.1
Zhang et al.	46.2	50.5	34.8
DDT+	50.2	53.1	38.2
rOSD	54.5	55.3	48.5
LOD	53.6	55.1	48.5
DINO-seg (ViT-S/16)	45.8	46.2	42.1
LOST (ours)	61.9	64.0	50.7
LOST (ours) + CAD	65.7	70.4	57.5

LOST는 VOC07, VOC12 및 COCO_20k에서 CorLoc 기준으로 비지도 객체 발견 방법들보다 중요한 차이로 우수한 성능을 보였다.
LOST 박스로 클래스 불가지론 탐지기를 학습시키면 평가 데이터 세트 전반에서 CorLoc가 4-7 포인트 향상된다.
LOST 박스와 클러스터링으로 학습된 비지도 클래스 인식 탐지가 VOC07에서 AP@0.5에서 경쟁력 있는 성능을 보이며, 여러 클래스에서 약한 감독 방법보다 더 높은 성능(Aeroplane, bus, dog, horse, train, cat 등)을 달성한다.
Detectors 학습용으로 LOST 기반 의사 박스는 초기 의사 박스에 비해 AP를 크게 향상시킨다.
백본 선택이 중요하다; DINO 피처를 갖춘 ViT-S/16이 테스트된 백본 중 최상의 성능을 보였다.
LOST는 대규모 데이터셋에 적합한 이미지당 선형 복잡도의 확장 가능한 로컬라이제이션을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.