Skip to main content
QUICK REVIEW

[논문 리뷰] On the Multiple Descent of Minimum-Norm Interpolants and Restricted Lower Isometry of Kernels

Tengyuan Liang, Alexander Rakhlin|arXiv (Cornell University)|2019. 08. 27.
Stochastic Gradient Optimization Techniques인용 수 59
한 줄 요약

해당 논문은 RKHS에서의 최소-노름 보간자의 위험을 다양한 고차원 스케일링 체계에서 분석하고, d가 n과 함께 증가할 때 고차원 커널 행렬에 대해 제한적 Lower Isometry Property를 증명하며, d가 n에 비례하여 증가할 때 위험은 단조적이지 않고 다중 감소 양상을 보임을 밝힌다.

ABSTRACT

We study the risk of minimum-norm interpolants of data in Reproducing Kernel Hilbert Spaces. Our upper bounds on the risk are of a multiple-descent shape for the various scalings of $d = n^{\\alpha}$, $\\alpha\\in(0,1)$, for the input dimension $d$ and sample size $n$. Empirical evidence supports our finding that minimum-norm interpolants in RKHS can exhibit this unusual non-monotonicity in sample size; furthermore, locations of the peaks in our experiments match our theoretical predictions. Since gradient flow on appropriately initialized wide neural networks converges to a minimum-norm interpolant with respect to a certain kernel, our analysis also yields novel estimation and generalization guarantees for these over-parametrized models. At the heart of our analysis is a study of spectral properties of the random kernel matrix restricted to a filtration of eigen-spaces of the population covariance operator, and may be of independent interest.

연구 동기 및 목표

  • RKHS에서 최소-노름 보간자(커널 리드글리드 회귀)의 일반화 및 일관성에 대한 이해를 동기부여한다.
  • 고차원 스케일링 d ~ n^α, α ∈ (0,1) 하의 위험 행동을 특징짓는다.
  • 모집 분산 작용의 고유값 공간의 여과에 대한 Restricted Lower Isometry 분석을 통해 스펙트럼 특성을 밝힌다.
  • 결과를 NTK 유사 커널 및 과다 매개변수화된 모델에 대한 gradient-flow 훈련과 연결한다.

제안 방법

  • 커널 k(x,z)=h(x^T z / d)로 정의된 RKHS의 최소-노름 보간자 f̂를 연구하며, h는 매끄럽고 비음수 테일러 계수를 가진다고 가정한다.
  • f̂(x)=k(x,X)^T K^{-1} Y의 닫힌 형식과 X에 조건부의 바이어스-분산 분해를 이용해 보간자의 분산 및 바이어스 기여를 분석한다.
  • 모집 분포 공분산 연산자의 고유-공간의 여과에 대해 경험적 커널 행렬에 대한 Restricted Lower Isometry Property를 확립한다.
  • 다항 특성에 대한 Gram-Schmidt 직교화를 사용해 모노미얼의 공분산 구조를 제어하고 스펙트럴 하한을 가능하게 한다.
  • 고차원에서 샘플 공분산의 가장 작은 고윳값을 상한하기 위해 small-ball 확률 기법을 적용한다.
  • 뉴럴-네트웍 모티브 커널을 포함한 Neural-Tangent-Type 커널에 결과를 확장하고 일반화 한계를 도출한다.

실험 결과

연구 질문

  • RQ1차원 d가 n^α로 스케일링되는 regime(0<α<1)에서 최소-노름 커널 보간자의 위험은 어떻게 변하는가?
  • RQ2고차원 커널 행렬에 대해 Restricted Lower Isometry Property(RLIP)를 확립할 수 있으며, 이는 분산 및 바이어스 경계에 어떤 영향을 미치는가?
  • RQ3NTK 타입 커널을 통해 신경망 기반의 과다 매개변수화 학습 regime로 이 결과가 확장되어 보장된 일반화 성능을 제공하는가?
  • RQ4피크 위험이 나타나는 regime(다중-감소)의 위치는 어디이며, 이는 모집 분포의 스펙트럼 특성과 어떻게 연결되는가?
  • RQ5노이즈가 없는 설정과 노이즈가 있는 설정에서 보간자의 일반화 성능은 어떻게 달라지는가?

주요 결과

  • RKHS에서의 최소-노름 보간자의 위험 상한은 d가 n^α에 비례하여 증가하는 regime에서 다중-감소 형태를 보인다(α∈(0,1)).
  • 각 정수 ι≥1 및 α ∈ [1/(ι+1), 1/ι)마다 위험 곡선은 d ≈ n^{1/(ι+1/2)} 근처에서 빠른 속도로 낮아지는 계곡과 이러한 예측 스케일에서의 피크를 보인다.
  • 모집 분포의 고윳값 공간의 여과에 제한적으로 적용된 경험적 커널 행렬은 Restricted Lower Isometry Property를 만족시켜 분산과 바이어스에 대한 예리한 제어를 가능하게 한다.
  • 분산 상한은 d^ι/n에 비례하는 항과 n/d^{ι+1}을 포함하며, h의 테일러 계수에 따라 다항식뿐 아니라 비다항식 커널 경우도 포함된다.
  • 바이어스는 분산 항에 대한 제어로 표현되며, 커널을 통한 대상 함수의 표현 및 커널 값의 한정성 가정 하에서의 상한을 가진다.
  • 결과의 Corollaries는 Neural-Tangent-Type 커널로의 일반화를 확장하여 넓은 신경망이 최소-노름 보간자로 수렴할 때의 추정 및 일반화 보장을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.