Skip to main content
QUICK REVIEW

[논문 리뷰] Rethinking Soft Labels for Knowledge Distillation: A Bias-Variance Tradeoff Perspective

Helong Zhou, Liangchen Song|arXiv (Cornell University)|2021. 02. 01.
Machine Learning and Algorithms참고 문헌 40인용 수 44
한 줄 요약

본 논문은 지식 증류에서 소프트 라벨이 샘플별 편향-분산 트레이드오프를 유도하는 방식을 분석하고, 이 트레이드오프를 적응적으로 균형 잡기 위한 가중 소프트 라벨을 도입하며, 표준 벤치마크에서의 실험으로 검증한다.

ABSTRACT

Knowledge distillation is an effective approach to leverage a well-trained network or an ensemble of them, named as the teacher, to guide the training of a student network. The outputs from the teacher network are used as soft labels for supervising the training of a new network. Recent studies \citep{muller2019does,yuan2020revisiting} revealed an intriguing property of the soft labels that making labels soft serves as a good regularization to the student network. From the perspective of statistical learning, regularization aims to reduce the variance, however how bias and variance change is not clear for training with soft labels. In this paper, we investigate the bias-variance tradeoff brought by distillation with soft labels. Specifically, we observe that during training the bias-variance tradeoff varies sample-wisely. Further, under the same distillation temperature setting, we observe that the distillation performance is negatively associated with the number of some specific samples, which are named as regularization samples since these samples lead to bias increasing and variance decreasing. Nevertheless, we empirically find that completely filtering out regularization samples also deteriorates distillation performance. Our discoveries inspired us to propose the novel weighted soft labels to help the network adaptively handle the sample-wise bias-variance tradeoff. Experiments on standard evaluation benchmarks validate the effectiveness of our method. Our code is available at \url{https://github.com/bellymonster/Weighted-Soft-Label-Distillation}.

연구 동기 및 목표

  • KD에서 소프트 라벨을 편향-분산 관점에서 분석의 동기를 제시한다.
  • KD 학습 중 샘플별로 편향과 분산이 어떻게 진화하는지 특징짓는다.
  • KD 성능에 불균형적으로 영향을 주는 규제 샘플(registration samples)을 식별한다.
  • 학습 중 샘플별 편향-분산을 적응적으로 관리하기 위한 가중 소프트 라벨을 제안하고 검증한다.

제안 방법

  • KL 발산 기반 분석을 사용하여 KD 손실을 편향-분산 구성요소로 분해한다.
  • 직접 학습(교차 엔트로피)과 증류 손실(KD)의 편향-분산 분해를 비교한다.
  • 분산 감소가 지배적이고 편향이 증가하는 규제 샘플이 존재함을 보인다.
  • 교사와 학생 예측에 기반한 온도에 비민감한 가중 소프트 라벨링 스킴을 도입한다(가중 소프트 라벨).
  • 학습을 위해 L_ce와 가중 KD 손실(L_wsl)을 결합하고, 균형 하이퍼파라미터 α를 사용한다.

실험 결과

연구 질문

  • RQ1지식 증류에서 소프트 라벨을 사용할 때 학습 중 편향과 분산은 어떻게 진화하는가?
  • RQ2고정된 증류 온도 하에서 KD 성능에서 규제 샘플의 역할은 무엇인가?
  • RQ3샘플별 가중 스킴이 규제 샘플의 부정적 영향을 완화하고 KD 성능을 향상시킬 수 있는가?

주요 결과

  • 소프트 라벨은 감독 신호이자 규제자 역할을 하여 샘플별 편향-분산 트레이드오프를 야기한다.
  • 같은 온도에서 샘플의 하위 집합(규제 샘플)은 편향 증가 및 분산 이익 감소로 인해 KD 성능과 음의 상관관계를 보인다.
  • 규제 샘플을 완전히 제외하면 성능이 저하되며, 이 샘플에 KD에 이용 가능한 정보가 포함되어 있음을 시사한다.
  • 간단한 가중 소프트라벨 스킴(L_wsl)이 규제 샘플의 악영향을 완화하고 KD 성능을 향상시킨다.
  • CIFAR-100 및 ImageNet에서 다양한 교사-학생 쌍에 대해 최첨단 KD 방법과 경쟁하거나 우수한 결과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.