QUICK REVIEW

[논문 리뷰] Self-supervised Pretraining of Visual Features in the Wild

Priya Goyal, Mathilde Caron|arXiv (Cornell University)|2021. 03. 02.

Advanced Image and Video Retrieval Techniques참고 문헌 53인용 수 139

한 줄 요약

SEER가 SwAV와 RegNetY(1.3B 파라미터)로 1B개의 무작위 이미지에서 사전학습되어 ImageNet에서 84.2%의 top-1을 달성하고 10%의 ImageNet에서 77.9%로 소샷 전이에서 강한 성능을 보인다.

ABSTRACT

Recently, self-supervised learning methods like MoCo, SimCLR, BYOL and SwAV have reduced the gap with supervised methods. These results have been achieved in a control environment, that is the highly curated ImageNet dataset. However, the premise of self-supervised learning is that it can learn from any random image and from any unbounded dataset. In this work, we explore if self-supervision lives to its expectation by training large models on random, uncurated images with no supervision. Our final SElf-supERvised (SEER) model, a RegNetY with 1.3B parameters trained on 1B random images with 512 GPUs achieves 84.2% top-1 accuracy, surpassing the best self-supervised pretrained model by 1% and confirming that self-supervised learning works in a real world setting. Interestingly, we also observe that self-supervised models are good few-shot learners achieving 77.9% top-1 with access to only 10% of ImageNet. Code: https://github.com/facebookresearch/vissl

연구 동기 및 목표

대규모의 비정제 이미지 컬렉션에서의 자기지도 사전학습이 경쟁력 있는 시각 표현을 낳을 수 있음을 시연한다.
대규모( RegNetY) 아키텍처의 흐름에서 자기지도 사전학습의 확장성을 평가한다.
ImageNet으로의 전달 성능, 저샷 학습, 그리고 다른 다운스트림 작업에의 성능을 평가한다.
wild 데이터에서의 자기지도 사전학습을 감독학습 및 약감독 학습 기반과 비교한다.

제안 방법

레이블 없이 특징을 학습하기 위해 SwAV 온라인 클러스터링 자기지도학습을 사용한다.
확장 가능하고 고용량 사전학습을 위한 RegNetY 아키텍처(RegNetY-256GF를 중심) 를 채택한다.
512 대의 V100 GPU에서 8,704-이미지 배치 크기로 1B 무작위의 공개 Instagram 이미지에서 학습한다.
대규모 학습 가능성을 위해 혼합 정밀도, 그래디언트 체크포인팅, SyncBatchNorm을 사용한다.
사진당 6개의 크롭과 16K 프로토타입, Sinkhorn 반복을 위한 3계층 MLP 헤드를 활용한 클러스터링을 수행한다.
사전학습된 모델을 ImageNet에 대해 미세조정하고 표준 top-1 정확도로 평가한다.

실험 결과

연구 질문

RQ1자연에서 무작위로 정제되지 않은 수십억 개의 이미지에서 자기지도 학습이 고품질의 시각 특성을 학습할 수 있는가?
RQ2모델 용량(RegNetY 규모)이 wild에서의 사전학습 시 다운스트림 성능에 어떤 영향을 미치는가?
RQ3자연 데이터에서 사전학습된 자기지도 모델이 ImageNet 및 다른 벤치마크로 감독학습 또는 약감독 학습에 비해 전달성 있게 작동하는가?
RQ4SEER가 저샷 전이 시에 효과적인가, 그리고 제한된 데이터에서 베이스라인과의 비교는 어떠한가?
RQ5 representation 품질에 대한 데이터 규모와 업데이트 수의 영향은 어떠한가?

주요 결과

SEER는 미세조정 후 ImageNet에서 84.2% top-1 정확도를 달성하여 이전의 최고 자기지도 모델보다 1포인트 앞섰다.
SEER는 ImageNet의 10% 만으로도 77.9% top-1에 도달하여 소샷 전이에서 강한 성능을 보인다.
비정제 데이터에 대한 자기지도 사전학습은 몇몇 다운스트림 작업에서 ImageNet에 대한 감독 사전학습과 경쟁력 있게 또는 그보다 더 잘 전이되며, COCO 탐지/세분화(APBox +1.5–2, APMask +1–2)도 포함한다.
모델 용량을 증가시키면 전이 성능의 상대적 이득이 커지며, 특히 저샷 시나리오에서 그렇다.
다수의 작업(iNaturalist, OpenImages, Places, VOC)에서 선형 평가 시 SEER의 자기지도 특징이 감독 지도 특징보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.