Skip to main content
QUICK REVIEW

[논문 리뷰] SEED: Self-supervised Distillation For Visual Representation

Zhiyuan Fang, Jianfeng Wang|arXiv (Cornell University)|2021. 01. 12.
Domain Adaptation and Few-Shot Learning참고 문헌 58인용 수 74
한 줄 요약

SEED는 큰 SSL 교사를 훈련시키고 레이블 없이 그 표현을 더 작은 학생으로 증류하여, ImageNet 및 그 이상에서 소형 모델의 성능을 극적으로 향상시킵니다.

ABSTRACT

This paper is concerned with self-supervised learning for small models. The problem is motivated by our empirical studies that while the widely used contrastive self-supervised learning method has shown great progress on large model training, it does not work well for small models. To address this problem, we propose a new learning paradigm, named SElf-SupErvised Distillation (SEED), where we leverage a larger network (as Teacher) to transfer its representational knowledge into a smaller architecture (as Student) in a self-supervised fashion. Instead of directly learning from unlabeled data, we train a student encoder to mimic the similarity score distribution inferred by a teacher over a set of instances. We show that SEED dramatically boosts the performance of small networks on downstream tasks. Compared with self-supervised baselines, SEED improves the top-1 accuracy from 42.2% to 67.6% on EfficientNet-B0 and from 36.3% to 68.2% on MobileNet-v3-Large on the ImageNet-1k dataset.

연구 동기 및 목표

  • 기존 SSL 방법이 컴팩트 아키텍처에서 성능이 낮은 점을 이유로 작은 모델에 대한 개선된 자기지도 학습을 촉진한다.
  • 레이블 없이 큰 SSL 교사로부터 작은 학생으로 지식을 이전하기 위한 자기지도 증류 패러다임(SEED)을 소개한다.
  • SEED가 작은 모델에 대해 다운스트림 작업 및 도메인 전반에 걸쳐 상당한 이득을 보여준다.
  • 다양한 교사 사전 학습 방법과 증류 전략에 걸쳐 SEED의 강건성을 보여준다.

제안 방법

  • SSL로 생성된 동결된 사전 학습 교사 인코더를 유지한다(예: MoCo-V2, SimCLR, SWAV).
  • 동적 큐 데이터 샘플에 대해 교사의 인스턴스 유사도 분포를 흉내 내도록 더 작은 학생 인코더를 학습한다.
  • 큐를 구성하는 교사 및 학생의 유사성 분포를 L2-정규화된 임베딩 및 온도 매개변수를 사용해 확률 분포로 구성한다.
  • 교사와 학생의 유사도 분포 사이의 교차 엔트로피를 최소화하여 지식을 증류한다.
  • 현재 배치 임베딩과 교사의 현재 임베딩을 포함하는 큐를 사용해 양성 및 부정 대조를 제공한다.
  • SEED가 SSL 사전 학습 방법에 독립적이며 다양한 교사/학생 아키텍처 및 하이퍼파라미터를 사용할 수 있음을 보여준다.

실험 결과

연구 질문

  • RQ1레이블이 없는 데이터에서 큰 SSL 교사로부터의 자기지도 증류가 소형 모델의 표현 품질을 향상시킬 수 있는가?
  • RQ2SEED는 서로 다른 교사 사전 학습 방법과 작은 학생 아키텍처에서 어떻게 수행되는가?
  • RQ3SEED 증류 후 소형 모델은 어떤 다운스트림 이득(분류, 탐지, 분할)을 달성할 수 있는가?
  • RQ4하이퍼파라미터(큐 크기, 온도)가 SEED 성능에 어떤 영향을 미치는가?

주요 결과

  • SEED는 MoCo-V2 기준선(MobileNet-V3-Large, EfficientNet-B0 등)과 비교하여 소형 모델의 선형 및 준지도 ImageNet 성능을 크게 향상시킨다.
  • 더 깊거나 넓은 교사(예: ResNet-152 또는 ResNet-50×2)를 사용하면 더 큰 이득이 학생에게 돌아간다.
  • SEED는 CIFAR-10/100 및 SUN-397에서 전이 이득을 얻고, 작게 초기화된 백본을 사용할 때 VOC, COCO 등의 물체 탐지/분할 벤치마크를 향상시킨다.
  • SEED는 MoCo-V2, SimCLR, SWAV 등 다양한 SSL 사전 학습 방법과 호환되며, 여러 증류 전략을 능가할 수 있으며, 간단한 L2-거리 및 SEED 변형도 잘 작동한다.
  • 하이퍼파라미터 선택(교사 온도 τ^T) 및 큐 크기가 성능에 영향을 주며, ImageNet 및 CIFAR 데이터셋에서 보통 낮은 τ^T가 더 나은 결과를 낳는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.