QUICK REVIEW

[논문 리뷰] Self-Distillation of Hidden Layers for Self-Supervised Representation Learning

Scott Lowe, Anthony Fuller|arXiv (Cornell University)|2026. 03. 16.

Domain Adaptation and Few-Shot Learning인용 수 0

한 줄 요약

Bootleg은 다수의 숨겨진 교사 계층에서의 자기증류를 통해 ViT를 학습시켜 MAE 및 I-JEPA보다 표현 품질을 향상시키고 다운스트림 태스크 성능을 높입니다. 마스킹된 패치와 여러 교사 계층의 타깃을 사용하여 다단계 추상화를 장려합니다.

ABSTRACT

The landscape of self-supervised learning (SSL) is currently dominated by generative approaches (e.g., MAE) that reconstruct raw low-level data, and predictive approaches (e.g., I-JEPA) that predict high-level abstract embeddings. While generative methods provide strong grounding, they are computationally inefficient for high-redundancy modalities like imagery, and their training objective does not prioritize learning high-level, conceptual features. Conversely, predictive methods often suffer from training instability due to their reliance on the non-stationary targets of final-layer self-distillation. We introduce Bootleg, a method that bridges this divide by tasking the model with predicting latent representations from multiple hidden layers of a teacher network. This hierarchical objective forces the model to capture features at varying levels of abstraction simultaneously. We demonstrate that Bootleg significantly outperforms comparable baselines (+10% over I-JEPA) on classification of ImageNet-1K and iNaturalist-21, and semantic segmentation of ADE20K and Cityscapes.

연구 동기 및 목표

생성적(픽셀 재구성) SSL 방법과 예측적(임베딩 증류) SSL 방법 사이의 간극을 메우는 동기 부여.
교사 네트워크의 숨겨진 계층 타깃을 사용하는 다층 자기증류 목표를 도입.
초/깊은 덜 처리된 표현에 타깃을 근거로 SSL 학습을 안정화.
이미지 분류 및 시맨틱 세분화 작업에서 다운스트림 성능 향상을 시연.
타깃 계층 선택 및 마스킹 전략이 안정성 및 성능에 어떻게 영향을 미치는지 탐구.

제안 방법

I-JEPA 프레임워크에 따른 EMA 교사(Bootleg)와 함께 ViT 기반 인코더-예측기 아키텍처를 사용.
네 개의 직사각형 영역으로 이미지 패치를 하위 집합을 마스킹하여 학습 타깃을 생성.
인코더의 깊이에 걸쳐 EMA 교사의 여러 숨겨진 레이어에서 z-점수 표준화된 임베딩으로 타깃을 수집.
마스킹된 위치에 대해 연결된 잠재 타깃을 예측하기 위해 전용 예측 모듈을 사용하여 학생 인코더를 학습.
다중 블록의 잠재 임베딩을 결합하여 증류 타깃으로 사용하여 추상성 다양성을 극대화.

실험 결과

연구 질문

RQ1교사로부터의 숨겨진 계층 자기증류가 최종 계층 타깃보다 SSL 표현을 향상시킬 수 있는가?
RQ2다중 숨겨진 계층을 타깃으로 하는 효과는 어떠하며, 어떤 계층과 마스킹 전략이 최상의 성능을 내는가?
RQ3Bootleg가 MAE 및 I-JEPA와 비교했을 때 유사한 계산 조건에서 다운스트림 작업(분류, 분할)을 개선하는가?
RQ4타깃 구성 선택(어떤 계층, 몇 개, 병합 방법)이 안정성 및 성능에 어떤 영향을 주는가?

주요 결과

Bootleg는 ImageNet-1k 분류 및 iNaturalist-21에서 +10% 등 비교 가능한 기준선보다 더 나은 성능을 보인다.
여러 숨겨진 계층으로부터 타깃을 증류하면 입력 픽셀이나 최종 임베딩만 사용하는 것보다 더 강한 표현을 얻을 수 있다.
4개의 직사각형 마스크를 사용하고 분산된 다층 타깃으로 구성된 마스킹 전략은 안정적인 학습을 제공하고 MAE의 균일 무작위 마스킹이나 단일 타깃 I-JEPA 변형보다 성능이 좋다.
깊이를 따라 매 네 번째 블록을 타깃으로 하고 여러 숨겨진 계층 표현을 연결하는 것은 일관되게 프리징된 프로브 정확도와 세분화 지표를 향상시킨다.
Bootleg은 IN-1k, iNat21, ADE20K, Cityscapes에서 선형, CLS, X-Blk 프로브 성능을 개선하며, 모델 크기가 작을수록 눈에 띄는 이득이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.