QUICK REVIEW

[논문 리뷰] The Neural Tangent Kernel in High Dimensions: Triple Descent and a Multi-Scale Theory of Generalization

Ben Adlam, Jeffrey Pennington|arXiv (Cornell University)|2020. 08. 15.

Stochastic Gradient Optimization Techniques인용 수 35

한 줄 요약

본 논문은 고차원 신경망에 대해 Neural Tangent Kernel (NTK)을 이용한 커널 회귀를 분석하고, 다중 매개변수 스케일에 걸쳐 단조되지 않는 일반화 동작과 잠재적 트리플 디센트를 포함한 현상을 보인다.

ABSTRACT

Modern deep learning models employ considerably more parameters than required to fit the training data. Whereas conventional statistical wisdom suggests such models should drastically overfit, in practice these models generalize remarkably well. An emerging paradigm for describing this unexpected behavior is in terms of a \emph{double descent} curve, in which increasing a model's capacity causes its test error to first decrease, then increase to a maximum near the interpolation threshold, and then decrease again in the overparameterized regime. Recent efforts to explain this phenomenon theoretically have focused on simple settings, such as linear regression or kernel regression with unstructured random features, which we argue are too coarse to reveal important nuances of actual neural networks. We provide a precise high-dimensional asymptotic analysis of generalization under kernel regression with the Neural Tangent Kernel, which characterizes the behavior of wide neural networks optimized with gradient descent. Our results reveal that the test error has non-monotonic behavior deep in the overparameterized regime and can even exhibit additional peaks and descents when the number of parameters scales quadratically with the dataset size.

연구 동기 및 목표

초매개변수화(overparameterized)된 신경망이 왜 고전적 규범을 넘어 잘 일반화하는지 동기를 부여하고 이해한다.
광범위한 교사 네트워크에 대한 NTK 릿지 회귀의 고차원적 명확한 점근 분석을 제공한다.
테스트 오차가 비단조적 동작을 보이는 다중 매개변수 스케일을 식별한다(선형 및 이차 전이).
NTK를 각 층의 커널로 분해하여 비단조적 일반화의 원인을 찾는다.
경사 하강법으로 학습된 유한한 네트워크에서 트리플 디센트의 경험적 증거를 제시한다.

제안 방법

단일 은닉층 네트워크의 Neural Tangent Kernel을 사용하여 커널 릿지 회귀로 학습 문제를 모델링한다.
NTK를 두 개의 층별 커널 K1과 K2로 분해하고 그 기여를 분석한다.
고차원 역한을 m개의 샘플, n0개의 특징, 그리고 고정 비율 φ=n0/m, ψ=n0/n1을 갖는 n1개의 은닉 유닛으로 유도한다.
가우시안 등가를 통해 비선형 랜덤 피처 행렬을 선형화하여 계산 가능한 표현을 얻는다.
선형 펜슬(linear pencils) 및 랜덤 행렬 기법을 사용하여 테스트 오차를 역 커널의 유리 함수로 표현한다.
E_train과 E_test에 대한 정확한 점근식과 극한 상태를 분석한다.

실험 결과

연구 질문

RQ1매개변수 수 p가 m 및 m^2로 스케일될 때 고차원에서 NTK 릿지 회귀가 어떻게 일반화되는가?
RQ2과다 매개변수화 영역의 깊은 곳에서 테스트 오차의 비단조성이 나타나는가, 그리고 어떤 스케일(선형 대 이차)이 이를 주도하는가?
RQ3일층 커널과 이층 커널의 일반화 기여도는 어느 정도인가?
RQ4NTK 규칙이 한정된 폭의 네트워크에서도 트리플 디센트와 다중 스케일 학습 곡선을 보일 수 있는가?
RQ5NTK 회귀와 그 극한 경우에 대한 훈련 오차와 테스트 오차의 점근식은 무엇인가?

주요 결과

테스트 오차는 과다 매개변수화 영역의 깊은 곳에서 비단조적으로 나타난다.
비단조성은 p가 데이터 세트 크기 m과 이차적으로 스케일할 때( p ~ m^2 ) 발생하고 지속될 수 있다.
비단조성은 주로 두 번째 층 가중치와 연관된 커널(K2) 때문으로 귀속된다.
대폭(width가 큰) 영역에서 학습 곡선은 매우 빨라질 수 있으며, 노이즈가 없는 경우 E_test가 m^−2로 스케일하고 유한 SNR일 때는 대략 m^−1로 스케일한다.
이론적 분석과 유한 네트워크에 대한 경험적 증거가 트리플 디센트 및 다중 스케일 현상을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.