QUICK REVIEW

[논문 리뷰] Spectrum Dependent Learning Curves in Kernel Regression and Wide Neural Networks

Blake Bordelon, Abdülkadir Canatar|arXiv (Cornell University)|2020. 02. 06.

Neural Networks and Applications인용 수 54

한 줄 요약

저자들은 커널 회귀에 대한 해석적이고 스펙트럼 의존적인 일반화 곡선을 도출하고, Neural Tangent Kernel을 통해 넓은 신경망의 학습과 등가성을 보인다; 더 높은 스펙트럴 모드는 더 많은 데이터로 학습되며, 학습 단계와 주파수 편향을 드러낸다.

ABSTRACT

We derive analytical expressions for the generalization performance of kernel regression as a function of the number of training samples using theoretical methods from Gaussian processes and statistical physics. Our expressions apply to wide neural networks due to an equivalence between training them and kernel regression with the Neural Tangent Kernel (NTK). By computing the decomposition of the total generalization error due to different spectral components of the kernel, we identify a new spectral principle: as the size of the training set grows, kernel machines and neural networks fit successively higher spectral modes of the target function. When data are sampled from a uniform distribution on a high-dimensional hypersphere, dot product kernels, including NTK, exhibit learning stages where different frequency modes of the target function are learned. We verify our theory with simulations on synthetic data and MNIST dataset.

연구 동기 및 목표

타깃 함수의 스펙트럴 구성요소 전반에 걸친 커널 회귀의 일반화 오차에 대한 해석적 표현을 개발한다.
커널 회귀 일반화를 Neural Tangent Kernel (NTK) 등가를 통해 넓은 신경망과 연결한다.
학습 데이터가 증가함에 따라 서로 다른 스펙트럴 모드가 서로 다른 속도로 학습되는 방법을 보인다.
도트-프로덕트 커널과 고차원 데이터에서의 학습 단계와 스펙트럴 바이어스를 특징화한다.
합성 데이터와 MNIST에 대한 시뮬레이션으로 검증한다.

제안 방법

가우시안 프로세스 문헌에서의 연속 근사를 사용하여 모드별 일반화 오차를 도출한다.
커널의 Mercer 고유basis에서 함수를 표현하고, 일반화 오차를 스펙tral 모드별 E_rho로 분해한다.
학습 역학을 인코딩하는 평균 G(p,v) 행렬에 대한 편정 편편 미분방정식(PDE)을 도출하고 이를 풀며(종종 saddle-point 근사와 함께 복제 방법을 통해서도) 해결한다.
단위 구에서의 도트-프로덕트 커널에 특수화하여 고유함수가 구면조화함수이고 고유값이 lambda_k인 경우를 다룬다.
모드 오차 E_rho(p)와 전체 오차 E_g(p)에 대한 암시적 방정식을 얻고 학습 곡선을 계산하는 알고리즘을 제시한다.

실험 결과

연구 질문

RQ1커널의 스펙트럴 구조가 서로 다른 함수 모드의 학습 속도에 어떤 영향을 미치는가?
RQ2일반 커널과 데이터 분포에 대해 학습 곡선을 해석적으로 표현할 수 있으며, 이것이 NTK를 통해 신경망으로 어떻게 변환되는가?
RQ3데이터 차원이 커짐에 따라 어떤 학습 단계가 나타나며, 이들은 RKHS 스펙트럼에 의해 어떻게 좌우되는가?
RQ4실제 데이터셋(MNIST)과 그래디언트 하강으로 학습된 넓은 신경망에 대해 해석적 예측이 성립하는가?

주요 결과

다른 스펙트럴 모드가 서로 다른 속도로 학습되며, 더 높은 커널 고유값일수록 샘플당 개선이 더 빨라진다.
도트-프로덕트 커널을 갖는 구(구면)상의 데이터( NTK 포함 )에 대해 낮은 주파수 모드가 데이터 세트가 커질수록 더 빨리 학습되어 뚜렷한 학습 단계를 형성한다.
고차원 극한에서 학습 단계는 k와 학습 크기 p 간의 관계로 모드를 분리하며, p ~ O(d^l)일 때 k<l은 학습되고, k=l은 학습되며, k>l은 학습되지 않음을 보인다.
모드 오차 E_rho(p)는 PDE/복제 근사하에서 p^{-2}로 감소하고, 전체 일반화 오차는 커널과 대상 스펙트럼에 따라 p에 대해 거듭제곱 법칙으로 스케일링될 수 있다.
이 이론은 합성 데이터와 MNIST에서의 시뮬레이션과 일치하며, 다중 출력과 ridge-less/추적표현적(interpolating) 영역(λ→0)으로도 확장된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.