Skip to main content
QUICK REVIEW

[논문 리뷰] Knowledge Distillation by On-the-Fly Native Ensemble

Lan Xu, Xiatian Zhu|arXiv (Cornell University)|2018. 06. 12.
Advanced Neural Network Applications참고 문헌 19인용 수 271
한 줄 요약

ONE은 다중 가지로 구성된 단일 네트워크를 학습시켜 가지들로부터 즉시 생성되는 교사를 만들어 온라인 지식 증류를 수행하여 테스트 시간 비용 없이 일반화 성능을 향상시킨다.

ABSTRACT

Knowledge distillation is effective to train small and generalisable network models for meeting the low-memory and fast running requirements. Existing offline distillation methods rely on a strong pre-trained teacher, which enables favourable knowledge discovery and transfer but requires a complex two-phase training procedure. Online counterparts address this limitation at the price of lacking a highcapacity teacher. In this work, we present an On-the-fly Native Ensemble (ONE) strategy for one-stage online distillation. Specifically, ONE trains only a single multi-branch network while simultaneously establishing a strong teacher on-the- fly to enhance the learning of target network. Extensive evaluations show that ONE improves the generalisation performance a variety of deep neural networks more significantly than alternative methods on four image classification dataset: CIFAR10, CIFAR100, SVHN, and ImageNet, whilst having the computational efficiency advantages.

연구 동기 및 목표

  • 저메모리 및 빠른 실행 제약하에서도 일반화가 잘 되는 컴팩트한 모델을 유도한다.
  • 훈련 중에 강력한 즉시 생성 교사를 구성하여 별도의 사전 학습된 교사의 필요성을 제거한다.
  • 단일 학습 단계 내에서 온라인 증류를 통해 대상 네트워크의 성능을 향상시킨다.
  • 표준 이미지 분류 벤치마크 전반에서 효율성과 일반화 향상을 입증한다.

제안 방법

  • 대상 네트워크에 저수준 층을 공유하는 m개의 보조 가지를 추가한다.
  • 게이팅 구성요소를 통해 가지를 앙상블하여 즉시 생성되는 ONE 교사를 구성한다.
  • 각 가지를 실제 정답 교차엔트로피 손실과 ONE 교사로부터의 증류 손실로 학습시킨다.
  • 학습을 안내하기 위해 가지들 및 교사에 대해 온도 T를 사용해 소프트 타깃을 계산한다.
  • 교차엔트로피와 KL발산을 T^2로 적절히 스케일링하여 결합한 폐쇄 루프 지식 증류 목적함수를 사용한다.
  • 테스트 시 보조 가지를 제거하여 원래의 단일 가지 모델을 복구하고 동일한 테스트 비용을 유지한다; 선택적으로 ONE-E로 앙상블로 배치할 수 있다.

실험 결과

연구 질문

  • RQ1즉시 생성 교사를 통한 온라인 증류가 다양한 용량의 네트워크에서 일반화를 향상시킬 수 있는가?
  • RQ2다중 가지를 가진 단일 모델 설계가 오프라인 교사-학생 증류 및 온라인 동료 교육 방법과 비교해 경쟁력 있거나 더 우수한 성능을 제공하는가?
  • RQ3가지의 게이팅 기반 앙상블이 교사의 품질 및 다운스트림 학생 학습에 미치는 영향은 무엇인가?
  • RQ4대규모 데이터(예: ImageNet)에서 ONE이 학습 비용, 테스트 비용 및 확장성에 어떠한 영향을 미치는가?

주요 결과

  • ONE은 여러 백본에서 CIFAR-10/100, SVHN, ImageNet 전반에 걸쳐 일반화를 개선한다.
  • 소형 모델이 대형 모델보다 ONE으로 상대적으로 더 큰 개선을 얻는다.
  • ONE으로의 학습은 오프라인 교사나 다중 네트워크 온라인 방법보다 비용이 낮으면서 경쟁력 있는 혹은 더 나은 정확도를 달성한다.
  • ONE 교사는 증류의 혜택을 받고 대상 모델은 학습 과정에서 교사의 성능에 근접한다.
  • 게이팅을 통한 앙상블(ONE-E)은 비교 구성 중 최상의 테스트 성능을 제공하고 비용 측면에서도 우호적인 거래를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.