QUICK REVIEW

[논문 리뷰] Self-EMD: Self-Supervised Object Detection without ImageNet

Songtao Liu, Zeming Li|arXiv (Cornell University)|2020. 11. 27.

Video Surveillance and Tracking Methods참고 문헌 37인용 수 67

한 줄 요약

Self-EMD는 밀도 특징 맵과 Earth Mover’s Distance를 사용하여 비-iconic 데이터(COCO)에서 공간적 유사성을 측정하고 ImageNet 없이도 경쟁력 있는 객체 검출 사전학습을 달성한다. COCO 데이터를 사용한 COCO에서 39.8% mAP를 달성하며, 더 많은 비라벨 데이터로 40.4%에 도달할 수 있다.

ABSTRACT

In this paper, we propose a novel self-supervised representation learning method, Self-EMD, for object detection. Our method directly trained on unlabeled non-iconic image dataset like COCO, instead of commonly used iconic-object image dataset like ImageNet. We keep the convolutional feature maps as the image embedding to preserve spatial structures and adopt Earth Mover's Distance (EMD) to compute the similarity between two embeddings. Our Faster R-CNN (ResNet50-FPN) baseline achieves 39.8% mAP on COCO, which is on par with the state of the art self-supervised methods pre-trained on ImageNet. More importantly, it can be further improved to 40.4% mAP with more unlabeled images, showing its great potential for leveraging more easily obtained unlabeled data. Code will be made available.

연구 동기 및 목표

ImageNet 또는 아이코닉한 물체 데이터 세트에 의존하지 않는 자기지도식 사전학습을 목표로 한다.
글로벌 풀링을 피하고 밀도 특징 맵을 임베딩으로 사용하여 공간 구조를 보존한다.
자르기 간의 지역 패치를 정렬하기 위해 Earth Mover’s Distance를 도입한다.
객체 검출의 강건성을 강화하기 위해 스케일 불변 학습 기법을 도입한다.

제안 방법

Baseline 교차 뷰 프레임워크로 BYOL에서 시작한다.
공간 정보를 유지하기 위해 글로벌 풀링을 밀도 특징 맵으로 대체한다.
두 특징 맵 사이의 EMD를 코사인 기반의 로컬 비용과 주변 가중치를 정의한다.
계산 효율성을 위해 정규화가 포함된 Sinkhorn-Knopp 반복을 통해 EMD를 풀이한다.
작은 스케일 뷰와 Spatial Pyramid Cropping(SPC)을 통해 스케일 불변 학습을 도입한다.
로버스트한 주변 가중치를 생성하기 위한 벡터 특징을 생성하는 병렬 MLP 경로를 유지한다.

실험 결과

연구 질문

RQ1비아이엔트( ImageNet) 없이도 아이콘이 아닌 데이터셋에서의 자기지도식 사전학습이 경쟁력 있는 검출 성능을 낳을 수 있는가?
RQ2밀도 특징 맵으로 공간结构을 보존하는 것이 글로벌 풀링 임베딩에 비해 검출기 미세조정 개선에 도움이 되는가?
RQ3EMD가 다중 객체 혼잡 상황에서 자르기 간 로컬 특징들을 효과적으로 매칭할 수 있는가?
RQ4스케일 불변 전략(SPC 및 다중 스케일 뷰)이 자기지도식 사전학습에서 검출 성능을 더 향상시키는가?

주요 결과

Detector	Pre-train Method	Pre-train Data	Label	AP	AP50	AP75	APs	APm	APl
Faster R-CNN	ImageNet	✓	Classification	39.1	60.0	42.2	24.1	42.7	50.4
BYOL	ImageNet	✓	Classification	39.9	60.2	43.2	23.3	43.2	52.8
Self-EMD	ImageNet	✓	Classification	40.0	60.4	44.0	23.5	43.8	52.2
BYOL	COCO	✓	Classification	38.8	58.5	42.2	23.3	41.4	49.5
Self-EMD	COCO	✓	Classification	39.8	60.0	43.4	24.2	42.7	50.6
BYOL	COCO+	✓	Classification	39.3	59.0	42.8	23.5	42.1	50.5
Self-EMD	COCO+	✓	Classification	40.4	61.1	43.7	24.4	43.3	51.3

Self-EMD는 COCO 사전학습으로 COCO에서 39.8% mAP를 달성하여 ImageNet으로 사전학습된 BYOL 및 감독 학습 베이스라인과 비교할 만한 성능을 보인다.
COCO+(COCO 학습 데이터와 비라벨 COCO)를 활용하면 Self-EMD가 40.4% mAP에 도달하여 더 많은 비라벨 데이터에서의 이점을 보여준다.
주변 가중치를 가지는 EMD 매칭은 대체 EMD 설정보다 우수하며 제안된 설계를 검증한다(ablation에서 39.5% 대 37.2% mAP).
스케일 불변 기법(SPC 및 다중 스케일)은 추가로 작은 이득을 제공한다(약 0.3% AP까지).
Self-EMD는 단일 스테이지 검출기(예: RetinaNet)에서 더 강한 이득을 보이며 Faster R-CNN 및 Mask R-CNN 계열에서도 경쟁력을 유지한다.
비라벨 COCO에서의 학습은 백본에 따라 여전히 강건하며, 더 큰 모델에서 더 큰 이득이 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.