QUICK REVIEW

[논문 리뷰] Bootstrap your own latent: A new approach to self-supervised Learning

Jean-Bastien Grill, Florian Strub|arXiv (Cornell University)|2020. 06. 13.

Domain Adaptation and Few-Shot Learning참고 문헌 98인용 수 3,436

한 줄 요약

BYOL은 온라인 및 목표 네트워크를 이동 평균(target)을 사용해 표현을 부트스트랩하고, 음수 페어 없이 ImageNet에서 최첨단 성능을 달성하며 전이 및 반지도 학습에서도 강력한 성능을 보인다.

ABSTRACT

We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches $74.3\%$ top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and $79.6\%$ with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub.

연구 동기 및 목표

레이블이 없는 데이터로 고품질 이미지 표현 학습의 동기를 제시한다.
온라인/타깃 네트워크를 사용해 타깃 표현을 예측하는 부트스트래핑 프레임워크를 제안한다.
대조 방법과 비교했을 때 이미지 증강 및 배치 크기에 대한 강건성을 보여준다.
선형 평가, 준지도 학습, 전이 작업에서 강력한 성능을 보인다.

제안 방법

온라인(인코더 f_theta, 프로젝터 g_theta, 예측기 q_theta)와 타깃(동일한 아키텍처, 가중치 xi)의 두 네트워크를 도입한다.
타깃 가중치 xi는 온라인 가중치 theta의 지수이동평균(xi <- tau*xi + (1-tau)*theta)이다.
온라인 가지의 예측기가 서로 다르게 증강된 뷰에서 타깃 프로젝션을 예측한다; 정규화된 예측과 타깃 프로젝션 사이의 L2 거리를 최소화한다.
손실 L_theta,xi = ||q_theta(z_theta) - stopgrad(z'_xi)||^2, 온라인/타깃 경로에 대칭적 증강을 적용.
theta에 대해 L_BYOL_theta,xi = L_theta,xi + ~L_theta,xi 를 최소화하도록 학습한다(단계 도중 xi는 고정).
SimCLR과 동일한 이미지 증강 T와 T'를 사용하고, ResNet 백본과 MLP 프로젝터(입력 2048차원에서 은닉 4096차원, 출력 256차원)으로 구성된다.

실험 결과

연구 질문

RQ1자기지도 학습이 음수 페어를 사용하지 않으면서 표현 붕괴를 방지할 수 있는가?
RQ2이동 평균 타깃을 통한 부트스트래핑이 표현 품질과 증강 및 배치 크기에 대한 강건성에 어떤 영향을 미치는가?
RQ3BYOL이 이전 방법들과 비교하여 ImageNet 선형 평가, 준지도 학습 및 전이 작업에 미치는 영향은 무엇인가?

주요 결과

ResNet-50로 ImageNet 선형 평가에서 74.3%의 Top-1 정확도, 더 큰 ResNet(RESNET-200)으로는 79.6%에 도달한다.
아키텍처 전반에 걸쳐 선형 평가에서 기존의 자기지도 방법들을 능가한다.
준지도 및 전이 벤치마크에서 최첨단과 일치하거나 그 이상이다.
BYOL은 배치 크기와 증강 선택에 대한 강건성을 보여주며, 증강을 감소시켰을 때 SimCLR보다 성능 하락이 작다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.