[논문 리뷰] Self-supervised Knowledge Distillation for Few-shot Learning
두 단계 자기지도 학습 프레임워크(Gen-0 및 Gen-1)가 먼저 자기지도 학습으로 등가출력 매니폴드를 학습한 뒤 매니폴드를 보존하면서 구분성을 향상시키기 위해 학생 모델로 증류하여 소수-shot 학습을 개선합니다.
Real-world contains an overwhelmingly large number of object classes, learning all of which at once is infeasible. Few shot learning is a promising learning paradigm due to its ability to learn out of order distributions quickly with only a few samples. Recent works [7, 41] show that simply learning a good feature embedding can outperform more sophisticated meta-learning and metric learning algorithms for few-shot learning. In this paper, we propose a simple approach to improve the representation capacity of deep neural networks for few-shot learning tasks. We follow a two-stage learning process: First, we train a neural network to maximize the entropy of the feature embedding, thus creating an optimal output manifold using a self-supervised auxiliary loss. In the second stage, we minimize the entropy on feature embedding by bringing self-supervised twins together, while constraining the manifold with student-teacher distillation. Our experiments show that, even in the first stage, self-supervision can outperform current state-of-the-art methods, with further gains achieved by our second stage distillation process. Our codes are available at: https://github.com/brjathu/SKD.
연구 동기 및 목표
- 다변수한 출력 공간의 다양성에 집중하여Invariant한 표현보다 소수-shot 학습을 개선하려는 동기를 제시합니다.
- 더 풍부한 출력 매니폴드를 학습하기 위해 두 단계의 자기지도 지식 증류 프레임워크(Gen-0 및 Gen-1)를 제안합니다.
- 자기지도만으로도 이전 SOTA를 능가할 수 있으며 증류를 통해 추가 이득이 발생한다는 것을 보입니다.
- 표준 FSL 벤치마크(miniImageNet, tieredImageNet, CIFAR-FS, FC100)에서 강력한 경험적 이득을 보여줍니다.
제안 방법
- Gen-0은 입력의 회전 버전에 대해 학습하고 분류 라벨과 회전 각도를 예측하는 자기지도 헤드를 사용하여 등가적 출력 매니폴드를 학습합니다.
- Gen-0 손실은 표준 교차 엔트로피 손실과 회전 예측에 대한 자기지도 손실을 결합하여 다양성 있는 로짓을 촉진합니다.
- Gen-1은 교사를 고정하고(Gen-0) 원래 입력에 대한 교사의 출력을 일치시키면서 회전된 쌍을 출력 공간에서 더 가깝게 만드는 증류 손실과 로짓에 대한 보조 L2 손실을 통해 학생을 훈련합니다.
- 지식 증류는 온도 T를 적용한 교사-학생 출력 간의 KL 발산으로 분포를 정렬합니다.
- 원래 입력과 회전된 입력에 대한 학생의 로짓 간의 L2 손실은 클래스 내 식별성을 추가로 향상시킵니다.
- 회전 기반 자기지도는 분류 계층 뒤에 부착된 추가 회전 헤드를 통해 클래스와 변환 정보를 함께 인코딩합니다.
- Gen-0이 매니폴드 추정에 집중하고 Gen-1이 매니폴드를 보존하는 증류 및 구분에 집중하는 두 단계로 학습이 수행됩니다.
실험 결과
연구 질문
- RQ1자기지도 학습이 제한된 라벨에서 FSL 성능을 향상시키는 더 풍부하고 등가적인 출력 매니폴드를 유도할 수 있는가?
- RQ2자기지도와 증류를 활용한 두 단계 Gen-0/Gen-1 프레임워크가 단일 단계 SSL 또는 표준 FSL 방법보다 개선을 제공하는가?
- RQ3회전 기반 자기지도 및 증류가 FSL 임베딩의 클래스 내 다양성과 클래스 간 구분성에 어떤 기여를 하는가?
- RQ4공통 FSL 벤치마크(miniImageNet, tieredImageNet, CIFAR-FS, FC100)에서 SKD의 실험적 이득은 무엇인가?
주요 결과
- Gen-0만으로도 여러 설정에서 이전 SOTA를 능가하여 출력 공간의 자기지도 다양성의 가치를 보여줍니다.
- Gen-1은 지식 증류와 임베딩 근접성 제약으로 추가 이득을 제공하며 Gen-0보다 성능을 더 향상시킵니다.
- miniImageNet에서 Gen-0은 65.93%(1-shot) 및 83.15%(5-shot)로 5-way 작업을 달성하고; Gen-1은 67.04%(1-shot) 및 83.54%(5-shot)를 달성합니다.
- CIFAR-FS에서 Gen-0은 74.5%(1-shot) 및 88.0%(5-shot); Gen-1은 76.9%(1-shot) 및 88.9%(5-shot)입니다.
- 데이터셋 전반에서 SKD 변형은 일관되게 RFS-simple 및 관련 기준선보다 우수하며, 종종 SKD-GEN1이 최적의 결과를 제공합니다.
- 해당 방법은 네 가지 벤치마크(miniImageNet, tieredImageNet, CIFAR-FS, FC100)에서 제시된 바와 같이 경쟁력 있거나 최첨단 정확도를 달성합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.