[논문 리뷰] Localizing Objects with Self-Supervised Transformers and no Labels
LOST는 라벨 없이 단일 이미지에서 패치 수준의 self-supervised transformer 특징을 사용해 객체를 로컬라이즈하며, 비지도 객체 발견에서 최첨단 CorLoc를 달성하고, 비지도 클래스 불가지론 및 클래스 인식 검출로의 확장을 가능하게 한다.
Localizing objects in image collections without supervision can help to avoid expensive annotation campaigns. We propose a simple approach to this problem, that leverages the activation features of a vision transformer pre-trained in a self-supervised manner. Our method, LOST, does not require any external object proposal nor any exploration of the image collection; it operates on a single image. Yet, we outperform state-of-the-art object discovery methods by up to 8 CorLoc points on PASCAL VOC 2012. We also show that training a class-agnostic detector on the discovered objects boosts results by another 7 points. Moreover, we show promising results on the unsupervised object discovery task. The code to reproduce our results can be found at https://github.com/valeoai/LOST.
연구 동기 및 목표
- 주석 없이 이미지 모음에서 객체 로컬라이제이션의 필요성을 제기해 라벨링 비용을 줄인다.
- 자기 감독 비전 트랜스포머의 패치 수준 상관관계로 단일 이미지 내 객체를 로컬라이즈한다.
- 시드 기반 로컬라이제이션이 영역 제안보다 우수하고 다운스트림 비지도 탐지 작업을 가능하게 함을 입증한다.
- LOST로부터의 의사 라벨이 클래스 불가지론 및 클래스 인식 탐 detections를 감독 없이 학습하는 데 활용될 수 있음을 보여준다.
제안 방법
- DINO로 사전 학습된 비전 트랜스포머를 사용해 단일 이미지에서 패치 기반 특징을 추출한다.
- 패치 특징 간 양(positive) 상관관계로 패치 유사성 그래프를 구성하고 이 그래프에서 차수가 가장 낮은 패치를 初 시드를 식별한다.
- 시드를 확장하여 시드와 양의 상관 관계를 가지며 차수가 낮은 집합에 위치한 패치를 순차적으로 추가한다.
- 시드와 이미지 패치를 상관시켜 이진 객체 마스크를 계산하고 시드를 포함하는 가장 큰 연속 구성요소에서 객체 바운딩 박스를 추출한다.
- LOST 박스로 클래스-불가지론 탐지기를 학습해 이미지당 다중 객체 탐지를 얻는다.
- 발견된 객체의 CLS 토큰을 클러스터링해 의사 라벨을 얻고, 헝가리안 매칭을 사용해 clusters를 실제 클래스에 매핑하여 평가한다.
실험 결과
연구 질문
- RQ1자기 감독 트랜스포머의 활성화가 주석 없이도 단일 이미지 내 객체를 로컬라이즈할 수 있는가?
- RQ2패치 상관관계 기반의 시드 선택 및 시드 확장이 로컬라이제이션 품질에 어떤 영향을 미치는가?
- RQ3LOST 기반 박스가 클래스 불가지론 탐지기에 효과적으로 학습되고 클러스터링 기반 의사 라벨과 결합될 때 비지도 객체 탐지를 개선하는가?
주요 결과
| 방법 | VOC07_trainval | VOC12_trainval | COCO_20k |
|---|---|---|---|
| 선택적 검색 | 18.8 | 20.9 | 16.0 |
| 엣지박스 | 31.1 | 31.6 | 28.8 |
| Kim et al. | 43.9 | 46.4 | 35.1 |
| Zhang et al. | 46.2 | 50.5 | 34.8 |
| DDT+ | 50.2 | 53.1 | 38.2 |
| rOSD | 54.5 | 55.3 | 48.5 |
| LOD | 53.6 | 55.1 | 48.5 |
| DINO-seg (ViT-S/16) | 45.8 | 46.2 | 42.1 |
| LOST (ours) | 61.9 | 64.0 | 50.7 |
| LOST (ours) + CAD | 65.7 | 70.4 | 57.5 |
- LOST는 VOC07, VOC12 및 COCO_20k에서 CorLoc 기준으로 비지도 객체 발견 방법들보다 중요한 차이로 우수한 성능을 보였다.
- LOST 박스로 클래스 불가지론 탐지기를 학습시키면 평가 데이터 세트 전반에서 CorLoc가 4-7 포인트 향상된다.
- LOST 박스와 클러스터링으로 학습된 비지도 클래스 인식 탐지가 VOC07에서 AP@0.5에서 경쟁력 있는 성능을 보이며, 여러 클래스에서 약한 감독 방법보다 더 높은 성능(Aeroplane, bus, dog, horse, train, cat 등)을 달성한다.
- Detectors 학습용으로 LOST 기반 의사 박스는 초기 의사 박스에 비해 AP를 크게 향상시킨다.
- 백본 선택이 중요하다; DINO 피처를 갖춘 ViT-S/16이 테스트된 백본 중 최상의 성능을 보였다.
- LOST는 대규모 데이터셋에 적합한 이미지당 선형 복잡도의 확장 가능한 로컬라이제이션을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.