Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Distillation of Hidden Layers for Self-Supervised Representation Learning

Scott Lowe, Anthony Fuller|arXiv (Cornell University)|2026. 03. 16.
Domain Adaptation and Few-Shot Learning인용 수 0
한 줄 요약

Bootleg은 다수의 숨겨진 교사 계층에서의 자기증류를 통해 ViT를 학습시켜 MAE 및 I-JEPA보다 표현 품질을 향상시키고 다운스트림 태스크 성능을 높입니다. 마스킹된 패치와 여러 교사 계층의 타깃을 사용하여 다단계 추상화를 장려합니다.

ABSTRACT

The landscape of self-supervised learning (SSL) is currently dominated by generative approaches (e.g., MAE) that reconstruct raw low-level data, and predictive approaches (e.g., I-JEPA) that predict high-level abstract embeddings. While generative methods provide strong grounding, they are computationally inefficient for high-redundancy modalities like imagery, and their training objective does not prioritize learning high-level, conceptual features. Conversely, predictive methods often suffer from training instability due to their reliance on the non-stationary targets of final-layer self-distillation. We introduce Bootleg, a method that bridges this divide by tasking the model with predicting latent representations from multiple hidden layers of a teacher network. This hierarchical objective forces the model to capture features at varying levels of abstraction simultaneously. We demonstrate that Bootleg significantly outperforms comparable baselines (+10% over I-JEPA) on classification of ImageNet-1K and iNaturalist-21, and semantic segmentation of ADE20K and Cityscapes.

연구 동기 및 목표

  • 생성적(픽셀 재구성) SSL 방법과 예측적(임베딩 증류) SSL 방법 사이의 간극을 메우는 동기 부여.
  • 교사 네트워크의 숨겨진 계층 타깃을 사용하는 다층 자기증류 목표를 도입.
  • 초/깊은 덜 처리된 표현에 타깃을 근거로 SSL 학습을 안정화.
  • 이미지 분류 및 시맨틱 세분화 작업에서 다운스트림 성능 향상을 시연.
  • 타깃 계층 선택 및 마스킹 전략이 안정성 및 성능에 어떻게 영향을 미치는지 탐구.

제안 방법

  • I-JEPA 프레임워크에 따른 EMA 교사(Bootleg)와 함께 ViT 기반 인코더-예측기 아키텍처를 사용.
  • 네 개의 직사각형 영역으로 이미지 패치를 하위 집합을 마스킹하여 학습 타깃을 생성.
  • 인코더의 깊이에 걸쳐 EMA 교사의 여러 숨겨진 레이어에서 z-점수 표준화된 임베딩으로 타깃을 수집.
  • 마스킹된 위치에 대해 연결된 잠재 타깃을 예측하기 위해 전용 예측 모듈을 사용하여 학생 인코더를 학습.
  • 다중 블록의 잠재 임베딩을 결합하여 증류 타깃으로 사용하여 추상성 다양성을 극대화.

실험 결과

연구 질문

  • RQ1교사로부터의 숨겨진 계층 자기증류가 최종 계층 타깃보다 SSL 표현을 향상시킬 수 있는가?
  • RQ2다중 숨겨진 계층을 타깃으로 하는 효과는 어떠하며, 어떤 계층과 마스킹 전략이 최상의 성능을 내는가?
  • RQ3Bootleg가 MAE 및 I-JEPA와 비교했을 때 유사한 계산 조건에서 다운스트림 작업(분류, 분할)을 개선하는가?
  • RQ4타깃 구성 선택(어떤 계층, 몇 개, 병합 방법)이 안정성 및 성능에 어떤 영향을 주는가?

주요 결과

  • Bootleg는 ImageNet-1k 분류 및 iNaturalist-21에서 +10% 등 비교 가능한 기준선보다 더 나은 성능을 보인다.
  • 여러 숨겨진 계층으로부터 타깃을 증류하면 입력 픽셀이나 최종 임베딩만 사용하는 것보다 더 강한 표현을 얻을 수 있다.
  • 4개의 직사각형 마스크를 사용하고 분산된 다층 타깃으로 구성된 마스킹 전략은 안정적인 학습을 제공하고 MAE의 균일 무작위 마스킹이나 단일 타깃 I-JEPA 변형보다 성능이 좋다.
  • 깊이를 따라 매 네 번째 블록을 타깃으로 하고 여러 숨겨진 계층 표현을 연결하는 것은 일관되게 프리징된 프로브 정확도와 세분화 지표를 향상시킨다.
  • Bootleg은 IN-1k, iNat21, ADE20K, Cityscapes에서 선형, CLS, X-Blk 프로브 성능을 개선하며, 모델 크기가 작을수록 눈에 띄는 이득이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.