[논문 리뷰] Self-supervised Pretraining of Visual Features in the Wild
SEER가 SwAV와 RegNetY(1.3B 파라미터)로 1B개의 무작위 이미지에서 사전학습되어 ImageNet에서 84.2%의 top-1을 달성하고 10%의 ImageNet에서 77.9%로 소샷 전이에서 강한 성능을 보인다.
Recently, self-supervised learning methods like MoCo, SimCLR, BYOL and SwAV have reduced the gap with supervised methods. These results have been achieved in a control environment, that is the highly curated ImageNet dataset. However, the premise of self-supervised learning is that it can learn from any random image and from any unbounded dataset. In this work, we explore if self-supervision lives to its expectation by training large models on random, uncurated images with no supervision. Our final SElf-supERvised (SEER) model, a RegNetY with 1.3B parameters trained on 1B random images with 512 GPUs achieves 84.2% top-1 accuracy, surpassing the best self-supervised pretrained model by 1% and confirming that self-supervised learning works in a real world setting. Interestingly, we also observe that self-supervised models are good few-shot learners achieving 77.9% top-1 with access to only 10% of ImageNet. Code: https://github.com/facebookresearch/vissl
연구 동기 및 목표
- 대규모의 비정제 이미지 컬렉션에서의 자기지도 사전학습이 경쟁력 있는 시각 표현을 낳을 수 있음을 시연한다.
- 대규모( RegNetY) 아키텍처의 흐름에서 자기지도 사전학습의 확장성을 평가한다.
- ImageNet으로의 전달 성능, 저샷 학습, 그리고 다른 다운스트림 작업에의 성능을 평가한다.
- wild 데이터에서의 자기지도 사전학습을 감독학습 및 약감독 학습 기반과 비교한다.
제안 방법
- 레이블 없이 특징을 학습하기 위해 SwAV 온라인 클러스터링 자기지도학습을 사용한다.
- 확장 가능하고 고용량 사전학습을 위한 RegNetY 아키텍처(RegNetY-256GF를 중심) 를 채택한다.
- 512 대의 V100 GPU에서 8,704-이미지 배치 크기로 1B 무작위의 공개 Instagram 이미지에서 학습한다.
- 대규모 학습 가능성을 위해 혼합 정밀도, 그래디언트 체크포인팅, SyncBatchNorm을 사용한다.
- 사진당 6개의 크롭과 16K 프로토타입, Sinkhorn 반복을 위한 3계층 MLP 헤드를 활용한 클러스터링을 수행한다.
- 사전학습된 모델을 ImageNet에 대해 미세조정하고 표준 top-1 정확도로 평가한다.
실험 결과
연구 질문
- RQ1자연에서 무작위로 정제되지 않은 수십억 개의 이미지에서 자기지도 학습이 고품질의 시각 특성을 학습할 수 있는가?
- RQ2모델 용량(RegNetY 규모)이 wild에서의 사전학습 시 다운스트림 성능에 어떤 영향을 미치는가?
- RQ3자연 데이터에서 사전학습된 자기지도 모델이 ImageNet 및 다른 벤치마크로 감독학습 또는 약감독 학습에 비해 전달성 있게 작동하는가?
- RQ4SEER가 저샷 전이 시에 효과적인가, 그리고 제한된 데이터에서 베이스라인과의 비교는 어떠한가?
- RQ5 representation 품질에 대한 데이터 규모와 업데이트 수의 영향은 어떠한가?
주요 결과
- SEER는 미세조정 후 ImageNet에서 84.2% top-1 정확도를 달성하여 이전의 최고 자기지도 모델보다 1포인트 앞섰다.
- SEER는 ImageNet의 10% 만으로도 77.9% top-1에 도달하여 소샷 전이에서 강한 성능을 보인다.
- 비정제 데이터에 대한 자기지도 사전학습은 몇몇 다운스트림 작업에서 ImageNet에 대한 감독 사전학습과 경쟁력 있게 또는 그보다 더 잘 전이되며, COCO 탐지/세분화(APBox +1.5–2, APMask +1–2)도 포함한다.
- 모델 용량을 증가시키면 전이 성능의 상대적 이득이 커지며, 특히 저샷 시나리오에서 그렇다.
- 다수의 작업(iNaturalist, OpenImages, Places, VOC)에서 선형 평가 시 SEER의 자기지도 특징이 감독 지도 특징보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.