[논문 리뷰] Like What You Like: Knowledge Distill via Neuron Selectivity Transfer
NST는 지식 전달을 교사와 학생 간의 뉴런 선택성 패턴 분포 정렬로 간주하며, MMD를 사용해 컴팩트한 모델을 향상시킨다. CIFAR와 ImageNet 전반에서 강력한 향상을 얻고 다른 KT 방법을 보완한다.
Despite deep neural networks have demonstrated extraordinary power in various applications, their superior performances are at expense of high storage and computational costs. Consequently, the acceleration and compression of neural networks have attracted much attention recently. Knowledge Transfer (KT), which aims at training a smaller student network by transferring knowledge from a larger teacher model, is one of the popular solutions. In this paper, we propose a novel knowledge transfer method by treating it as a distribution matching problem. Particularly, we match the distributions of neuron selectivity patterns between teacher and student networks. To achieve this goal, we devise a new KT loss function by minimizing the Maximum Mean Discrepancy (MMD) metric between these distributions. Combined with the original loss function, our method can significantly improve the performance of student networks. We validate the effectiveness of our method across several datasets, and further combine it with other KT methods to explore the best possible results. Last but not least, we fine-tune the model to other tasks such as object detection. The results are also encouraging, which confirm the transferability of the learned features.
연구 동기 및 목표
- 새로운 지식 전달 패러다음을 통해 네트워크 가속 및 압축을 추진한다.
- 교사와 학생 간 뉴런 활성화의 분포를 일치시키는 Neuron Selectivity Transfer(NST)를 도입한다.
- 뉴런 선택성 패턴을 정렬하기 위해 핵심 NST 손실로 최대 평균 이격(MMD)을 활용한다.
- CIFAR-10/100, ImageNet 및 객체 탐지와 같은 다운스트림 작업에서 NST의 효과를 입증한다.
- NST가 기존 KT 방법과 보완적으로 작용하여 성능 향상을 가져다줄 수 있음을 보여준다.
제안 방법
- 뉴런 활성화를 공간 위치 전반에 걸친 선택성 패턴의 분포로 간주한다.
- NST 손실을 교사와 학생 피처 맵 간의 스케일링된 MMD 항과 교차 엔트로피의 합으로 정의한다.
- 샘플 스케일을 같게 만들기 위해 MMD를 계산하기 전에 피처 맵을 정규화한다.
- MMD를 위한 커널로 선형, 다항식(계수 c=0인 2차), 가우시안의 세 가지 커널을 탐색한다.
- 다항 커널을 사용하는 NST가 종종 최고의 성능을 산출함을 보여준다.
실험 결과
연구 질문
- RQ1교사와 학생 간의 뉴런 선택성 분포를 MMD로 정렬하는 것이 직접 피처 맵 매칭을 넘어 학생 네트워크의 성능을 향상시킬 수 있는가?
- RQ2표준 데이터셋(CIFAR, ImageNet) 및 다운스트림 작업에서 NST가 기존 KT 방법(KD, FitNet, AT)과 어떻게 비교되는가?
- RQ3NST가 다른 KT 방법들과 보완적이며 (예: KD+NST) 결합할 때 이점이 있는가?
주요 결과
| 방법 | 모델 | CIFAR-10 | CIFAR-100 |
|---|---|---|---|
| Student | Inception-BN | 5.80 | 25.63 |
| KD [19] | Inception-BN | 4.47 | 22.18 |
| FitNet [36] | Inception-BN | 4.75 | 23.48 |
| AT [38] | Inception-BN | 4.64 | 24.31 |
| NST (linear) | Inception-BN | 4.87 | 24.28 |
| NST (poly) | Inception-BN | 4.39 | 23.46 |
| NST (Gaussian) | Inception-BN | 4.48 | 23.85 |
- NST는 CIFAR-10 및 CIFAR-100 전반에서 학생 모델의 성능을 기준선보다 향상시킨다.
- 다항 커널을 사용하는 NST가 NST 변형 중 CIFAR에서 가장 좋은 성능을 자주 보인다(예: Table 1의 Inception-BN에서 CIFAR-10 4.39, CIFAR-100 23.46).
- ImageNet에서 2차 다항 커널을 가진 NST는 베이스라인 학생 대비 top-1 0.9%, top-5 0.5% 향상을 제공한다.
- NST와 KD를 결합하면 CIFAR 및 ImageNet에서 전반적으로 가장 큰 이득을 제공한다(예: KD+NST*가 최상의 성능을 낸다).
- Faster R-CNN과 함께 사용할 때 PASCAL VOC 2007의 객체 탐지 성능도 향상시키며, 이 작업에서 종종 다른 KT 방법들보다 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.