Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Model Compression: Distilling Knowledge from Noisy Teachers

Bharat Bhusan Sau, Vineeth N Balasubramanian|arXiv (Cornell University)|2016. 10. 30.
Advanced Neural Network Applications참고 문헌 23인용 수 99
한 줄 요약

본 논문은 다수의 노이즈 교사로부터 학습하는 것을 시뮬레이션하기 위해 logit perturbation(노이즈)을 도입하여 교사-학생 심층 모델 압축을 강화하고, MNIST, SVHN, CIFAR-10에서 얕은(student) 성능을 향상시켰다.

ABSTRACT

The remarkable successes of deep learning models across various applications have resulted in the design of deeper networks that can solve complex problems. However, the increasing depth of such models also results in a higher storage and runtime complexity, which restricts the deployability of such very deep models on mobile and portable devices, which have limited storage and battery capacity. While many methods have been proposed for deep model compression in recent years, almost all of them have focused on reducing storage complexity. In this work, we extend the teacher-student framework for deep model compression, since it has the potential to address runtime and train time complexity too. We propose a simple methodology to include a noise-based regularizer while training the student from the teacher, which provides a healthy improvement in the performance of the student network. Our experiments on the CIFAR-10, SVHN and MNIST datasets show promising improvement, with the best performance on the CIFAR-10 dataset. We also conduct a comprehensive empirical evaluation of the proposed method under related settings on the CIFAR-10 dataset to show the promise of the proposed approach.

연구 동기 및 목표

  • 저장 공간뿐만 아니라 실행 시간과 훈련 시간도 줄이는 심층 모델 압축을 고무한다.
  • logit perturbation을 통해 노이즈 기반 정규화를 도입하여 교사-학생 프레임워크를 확장한다.
  • 일부 샘플의 교사 로그its를 perturb하는 것이 정규화로 작용하고 학생 정확도를 향상시킨다는 것을 보여준다.
  • 성능 향상과 강건성을 분석하기 위해 MNIST, SVHN, CIFAR-10에서 방법을 평가한다.

제안 방법

  • logits를 타깃으로 사용하여 사전에 학습된 교사로부터 지식을 증류하는 접근 방식에 기초한다.
  • 교사 logits를 z′(i) = (1 + ξ) z(i)로 perturb한다, ξ ~ N(0, σ^2 I).
  • 손실을 계산하기 전에 각 미니배치에서 부분 샘플의 교란을 확률 α로 수행한다.
  • 변형된 logits에 대해 L2 손실 L(x, z′, θ)로 학생을 학습한다.
  • logits perturbation이 손실 함수에서 노이즈 기반 정규화와 동등하다는 것을 보인다.
  • 다중 교사로부터의 학습을 목표의 노이즈 유도 다양성으로 개념적으로 탐구한다.

실험 결과

연구 질문

  • RQ1교사-학생 압축에서 표준 logit 회귀와 비교하여 교사 logits를 perturb하는 것이 얕은 학생의 정확도를 향상시키는가?
  • RQ2perturbation 매개변수 (α, σ)가 데이터 세트 전반의 성능에 어떻게 영향을 미치는가?
  • RQ3다수의 노이즈 교사로부터의 학습을 효과적으로 시뮬레이션하여 교사와 학생 간의 성능 격차를 줄일 수 있는가?
  • RQ4제안된 방법은 dropout과 같은 기존 정규화 기법과 어떻게 비교되는가?
  • RQ5CIFAR-10에서 노이즈-교사 정규화가 런타임/저장공간 절충에 미치는 영향은 무엇인가?

주요 결과

  • MNIST: perturbation은 기준 대비 최대 11.3% 상대 개선으로 일관된 개선을 보인다.
  • SVHN: perturbation은 다소 개선을 제공하며, 최고 3.3% 상대 개선 정도이고, 더 높은 노이즈는 때로 성능을 저하시킨다.
  • CIFAR-10: perturbation은 가장 큰 이득을 가져오며, 일부 설정에서 최대 12.7% 상대 개선이다.
  • 더 큰 α(더 많은 logits perturb)는 일반적으로 CIFAR-10에서 성능을 향상시키지만, 최적의 α는 교사–학생 간 격차에 따라 달라진다.
  • 그들의 실험에서 교사 logits를 perturb하는 것이 학생을 perturb하거나 드롭아웃을 사용하는 것보다 정규화에 더 효과적이다.
  • 다수의 교사(노이즈 교사를 포함)로부터의 학습은 단일 교사 기준선보다 학생 성능을 추가로 향상시킬 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.