Skip to main content
QUICK REVIEW

[논문 리뷰] Statistical Mechanics of Generalization in Kernel Regression.

Abdülkadir Canatar, Blake Bordelon|arXiv (Cornell University)|2020. 06. 23.
Gaussian Processes and Bayesian Inference참고 문헌 20인용 수 6
한 줄 요약

이 논문은 통계역학을 사용하여 모든 회전 대칭 커널에 대해 커널 회귀에서 일반화 오차의 해석적 표현을 유도하며, 고차원 데이터에서 다중 학습 단계를 드러낸다. 각 단계는 커널 고유값과 연결된 퇠퇴적 스펙트럼 모드를 학습하는 것으로, 학습 곡선은 효과적 정규화와 노이즈에 의해 결정되며, 최적의 일반화는 효과적 정규화가 효과적 노이즈 분산과 동일할 때 발생한다. 또한 각 단계에서 표본 수에 따른 더블드레스팅 행동이 나타난다.

ABSTRACT

Generalization beyond a training dataset is a main goal of machine learning. We investigate generalization error in kernel regression using statistical mechanics and derive an analytical expression for it applicable to any kernel. Focusing on the broad class of rotation invariant kernels, which is relevant to training deep neural networks in the infinite-width limit, we show several phenomena. When data is drawn from a spherically symmetric distribution and the number of input dimensions, $D$, is large, we find that multiple learning stages exist, one for each scaling of the number of training samples with $\mathcal{O}_D(D^K)$ with $K\in Z^+$. In each stage $\mathcal{O}_D(D^K)$ degenerate spectral modes corresponding to the $K$-th kernel eigenvalue are learned. The mathematical analysis of a learning stage reduces to that of a solvable model with the dimensionality of the feature space extensive in the number of samples and a white kernel spectrum, including linear regression as a special case. The behavior of the learning curve in each stage is governed by an effective regularizer and an effective target noise that are related to the tail of the kernel and the target function spectra. When effective regularization is zero, we identify a first order phase transition that corresponds to a divergence in the generalization error. Each learning stage can exhibit sample-wise extit{double-descent}, where learning curves show non-monotonic sample size dependence. For each stage an optimal value of effective regularizer exists, equal to the effective noise variance, that gives minimum generalization error.

연구 동기 및 목표

  • 딥러닝과 관련된 고차원 설정에서 커널 회귀의 일반화 오차를 통계역학을 통해 이해하기.
  • 학습 역학과 일반화가 회전 대칭 커널의 스펙트럼 구조에 어떻게 의존하는지 분석하기.
  • 입력 차원 D에 상대적으로 훈련 샘플 수가 어떻게 스케일링되는지에 따라 고차원 입력 공간에서의 구분된 학습 단계를 식별하기.
  • 각 단계에서 학습 곡선 행동을 지배하는 효과적 정규화와 효과적 노이즈를 특성화하기.
  • 일반화 오차를 최소화하기 위한 최적의 정규화를 결정하고, 단계 전환을 규명하기.

제안 방법

  • 분석은 고차원 극한에서의 커널 회귀를 모델링하기 위해 통계역학을 사용하며, 주로 회전 대칭 커널에 초점한다.
  • 훈련 샘플 수가 D^K의 주어진 정수 K에 대해 O_D(D^K)로 스케일링됨에 따라 학습 단계를 식별한다.
  • 각 단계는 광범위한 특징 공간과 화이트 커널 스펙트럼을 가진 해석 가능한 모델로 축소되며, 선형 회귀를 일반화한다.
  • 효과적 정규화는 커널 스펙트럼의 尾부에서 유도되고, 효과적 노이즈는 타겟 함수 스펙트럼의 해당 부분에서 유도된다.
  • 효과적 정규화가 0이 되는 순간에 단층 전이가 발생하며, 이는 일반화 오차가 발산하게 만든다.
  • 이 방법은 각 단계에서 표본 수에 대한 비단조화적 의존성으로 인해 표본 기반 더블드레스팅 행동을 보임을 드러낸다.

실험 결과

연구 질문

  • RQ1입력 차원 D가 크고 데이터가 구형 대칭일 때 커널 회귀에서 일반화 오차는 어떻게 행동하는가?
  • RQ2고차원 커널 회귀에서의 구분된 학습 단계는 무엇이며, 이는 D에 대한 훈련 샘플 수의 스케일링에 어떻게 의존하는가?
  • RQ3효과적 정규화와 효과적 노이즈는 각 단계에서 학습 곡선 역학을 어떻게 지배하는가?
  • RQ41차 단층 전이가 발생하는 조건은 무엇이며, 일반화 오차에 어떤 영향을 미치는가?
  • RQ5각 학습 단계에서 일반화 오차를 최소화하기 위한 최적의 효과적 정규화는 무엇인가?

주요 결과

  • 다중 학습 단계가 나타나며, 각 단계는 K ∈ Z^+ 에 대해 O_D(D^K)의 훈련 샘플 수에 대응하며, 각 단계에서 퇠퇴적 스펙트럼 모드가 학습된다.
  • 각 학습 단계는 광범위한 특징 공간과 화이트 커널 스펙트럼을 가진 해석 가능한 모델로 축소되며, 선형 회귀를 일반화한다.
  • 각 단계의 학습 곡선은 커널 스펙트럼과 타겟 함수 스펙트럼에서 유도된 효과적 정규화와 효과적 노이즈에 의해 지배된다.
  • 효과적 정규화가 0이 되는 순간 1차 단층 전이가 발생하며, 이는 일반화 오차의 발산을 초래한다.
  • 각 단계에서 표본 기반 더블드레스팅이 나타나며, 일반화 오차는 샘플 수가 증가함에 따라 처음에는 감소하고 나중에 증가한다.
  • 일반화 오차를 최소화하는 최적의 효과적 정규화는 각 단계에서 효과적 노이즈 분산과 동일하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.