Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Distillation Amplifies Regularization in Hilbert Space

Hossein Mobahi, Mehrdad Farajtabar|arXiv (Cornell University)|2020. 02. 13.
Gaussian Processes and Bayesian Inference참고 문헌 41인용 수 98
한 줄 요약

본 논문은 L2 정규화가 적용된 Hilbert 공간 회귀에서 자기 증류(self-distillation)의 이론적 분석을 제공하며, 반복적 증류가 해의 기반을 점진적으로 희소화시키고 축소된 과적합에서 가능한 과소적합으로의 전이를 야기할 수 있음을 보인다.

ABSTRACT

Knowledge distillation introduced in the deep learning context is a method to transfer knowledge from one architecture to another. In particular, when the architectures are identical, this is called self-distillation. The idea is to feed in predictions of the trained model as new target values for retraining (and iterate this loop possibly a few times). It has been empirically observed that the self-distilled model often achieves higher accuracy on held out data. Why this happens, however, has been a mystery: the self-distillation dynamics does not receive any new information about the task and solely evolves by looping over training. To the best of our knowledge, there is no rigorous understanding of this phenomenon. This work provides the first theoretical analysis of self-distillation. We focus on fitting a nonlinear function to training data, where the model space is Hilbert space and fitting is subject to $\ell_2$ regularization in this function space. We show that self-distillation iterations modify regularization by progressively limiting the number of basis functions that can be used to represent the solution. This implies (as we also verify empirically) that while a few rounds of self-distillation may reduce over-fitting, further rounds may lead to under-fitting and thus worse performance.

연구 동기 및 목표

  • 자기 증류가 새 작업 정보를 늘 제공하지 않아도 일반화 성능을 향상시키는 이유를 이해하도록 동기를 부여한다.
  • Hilbert 공간 회귀 설정에서 자기 증류를 반복적 정규화 메커니즘으로 형식화한다.
  • 자기 증류가 정규화와 해를 표현하는 유효 기반에 어떻게 영향을 주는지 특징화한다.
  • 자기 증류가 도움이 되는 시점과 과소적합을 초래하는 시점을 판단하는 경계와 통찰을 제공한다.

제안 방법

  • Mercer 커널 기반 정규화 항 R(f)을 갖는 제약 정규화 회귀 문제를 설정한다.
  • 커널 연산자의 Green’s 함수로 해 f*의 Representer 유사 닫힘 형태로 이어지는 KKT 조건을 도출한다.
  • y_t = V^T A_{t-1} V y_{t-1} 형태의 훈련 라벨 벡터에 대한 재귀로 자기 증류를 표현하며, A_t는 대각 행렬이다.
  • 각 라운드에서 f*가 (c I + G)^{-1}를 포함하는 닫힘 형태를 가지며, G는 커널로 구성된 Gram 유사 행렬이다.
  • 승수들 A_i의 곱 B_t = ∏_{i=0}^t A_i의 진화가 기반 가중치를 점진적으로 희소화시킴을 분석한다.
  • 근사 해석 영역에 대해 희소성 및 정규화 측면에서 초기 중단과의 차이를 논의한다.

실험 결과

연구 질문

  • RQ1자기 증류가 Hilbert 공간 회귀에서 정규화로 작용하며, 그 경우 유효 기반을 어떻게 수정하는가?
  • RQ2자기 증류 라운드의 수가 일반화와 과소적합 사이에 어떤 영향을 미치는가?
  • RQ3자기 증류에 의해 비제로 기반 구성요소의 수를 한정하고 희소성 패턴을 어떻게 설명할 수 있는가?
  • RQ4자기 증류의 역동이 보간(interpolation) 영역 및 잠재적 일반화 이점과 어떻게 관련되는가?
  • RQ5다중 클래스 설정 및 이 분석에서의 일반화 경계로 확장되는 내용은 무엇인가?

주요 결과

  • 자기 증류는 반복적으로 정규화를 수정하여 해를 표현하는 기반 함수의 수를 점진적으로 제한한다.
  • 증류 단계에서 대각 행렬의 곱인 B_t가 점점 더 희소해져 유효 모델 용량을 감소시킨다.
  • 고정된 오차 허용치 하에서 해가 0 함수로 붕괴하기까지의 보장된 라운드 수가 존재한다.
  • 근사-보간 영역(작은 ε)은 희소성을 강화하여, 붕괴 전에 유지된다면 더 깊은 증류가 정규화를 강화할 수 있음을 시사한다.
  • 더 큰 훈련 오차를 통한 초기 중단은 자기 증류 희소화와 동등하지 않으며 정규화 측면에서 서로 다르게 작용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.