QUICK REVIEW

[논문 리뷰] Generalization error of random features and kernel methods: hypercontractivity and kernel matrix concentration

Mei Song, Theodor Misiakiewicz|arXiv (Cornell University)|2021. 01. 26.

Stochastic Gradient Optimization Techniques참고 문헌 39인용 수 18

한 줄 요약

이 논문은 커널에 대한 스펙트럼 조건과 초수축성 조건을 만족할 때 랜덤 피처와 커널 리지 회귀의 일반화 오차를 정밀하게 기술한다. 연구는 랜덤 피처 리지 회귀가 커널 리지 회귀를 근사할 수 있는 조건을 규명하며, 이는 특징 차원 $N$ 이 $n^{1+\theta}$ 이상일 때에만 성립하며, $N \leq n^{1-\delta}$ 인 경우 테스트 오차는 근사 오차에 의해 지배되며, 두 방법 간의 정확한 오차 갭이 규명된다.

ABSTRACT

Consider the classical supervised learning problem: we are given data $(y_i,{\boldsymbol x}_i)$, $i\le n$, with $y_i$ a response and ${\boldsymbol x}_i\in {\mathcal X}$ a covariates vector, and try to learn a model $f:{\mathcal X} o{\mathbb R}$ to predict future responses. Random features methods map the covariates vector ${\boldsymbol x}_i$ to a point ${\boldsymbol ϕ}({\boldsymbol x}_i)$ in a higher dimensional space ${\mathbb R}^N$, via a random featurization map ${\boldsymbol ϕ}$. We study the use of random features methods in conjunction with ridge regression in the feature space ${\mathbb R}^N$. This can be viewed as a finite-dimensional approximation of kernel ridge regression (KRR), or as a stylized model for neural networks in the so called lazy training regime. We define a class of problems satisfying certain spectral conditions on the underlying kernels, and a hypercontractivity assumption on the associated eigenfunctions. These conditions are verified by classical high-dimensional examples. Under these conditions, we prove a sharp characterization of the error of random features ridge regression. In particular, we address two fundamental questions: $(1)$~What is the generalization error of KRR? $(2)$~How big $N$ should be for the random features approximation to achieve the same error as KRR? In this setting, we prove that KRR is well approximated by a projection onto the top $\ell$ eigenfunctions of the kernel, where $\ell$ depends on the sample size $n$. We show that the test error of random features ridge regression is dominated by its approximation error and is larger than the error of KRR as long as $N\le n^{1-δ}$ for some $δ>0$. We characterize this gap. For $N\ge n^{1+δ}$, random features achieve the same error as the corresponding KRR, and further increasing $N$ does not lead to a significant change in test error.

연구 동기 및 목표

고차원 설정에서 랜덤 피처 리지 회귀(RFRR)의 일반화 오차를 이해하기 위해.
RFRR가 커널 리지 회귀(KRR)의 성능을 따라잡기 위해 필요한 최소 특징 차원 $N$을 결정하기 위해.
RFRR가 통제 가능한 오차로 KRR를 근사할 수 있는 조건을 설정하기 위해.
RFRR에서 근사 오차와 추정 오차 사이의 상호 작용을 기술하기 위해.

제안 방법

저자는 고유함수에 대해 스펙트럼 조건과 초수축성을 만족하는 커널의 클래스를 정의하며, 이는 고전적인 고차원 모델에서 검증 가능하다.
RFRR를 커널 오퍼레이터의 상위 $\ell$ 개 고유함수에 대한 투영으로 간주하여 KRR의 유한차원 근사로 분석한다.
측도 농도 이론을 활용하여 랜덤 피처 행렬의 농도를 분석하고, 스펙트럼 분해를 통해 경험적 커널 행렬의 경계를 도출한다.
핵심 기술 도구로는 구와 초입방체에서의 초수축성 부등식을 활용하여 다항 고유함수의 고차 모멘트를 제어한다.
일반화 오차를 근사 오차와 추정 오차로 분해하고, 행렬 농도 및 고유값 분석을 통해 날카운 경계를 도출한다.
이론적 결과는 초수축성이 성립하는 두 가지 표준 예제인 이진 초입방체와 단위 구에서 검증된다.

실험 결과

연구 질문

RQ1커널에 스펙트럼 조건과 초수축성 조건이 만족될 때 커널 리지 회귀의 일반화 오차는 어떻게 되는가?
RQ2랜덤 피처 리지 회귀가 커널 리지 회귀와 동일한 일반화 오차를 달성하기 위해 특징 차원 $N$이 어느 정도여야 하는가?
RQ3랜덤 피처 리지 회귀에서 지배적인 오차 원인은 무엇인가—근사 오차인지 추정 오차인지?
RQ4랜덤 피처 리지 회귀의 근사 오차는 표본 크기 $n$과 특징 차원 $N$에 따라 어떻게 달라지는가?
RQ5커널 행렬 농도와 초수축성을 활용하여 RFRR의 일반화 오차를 날카운 경계로 둘 수 있는가?

주요 결과

특징 차원 $N \leq n^{1-\delta}$ 인 경우, 랜덤 피처 리지 회귀의 일반화 오차는 근사 오차에 의해 지배되며, KRR의 오차보다 엄격히 크다.
특징 차원 $N \geq n^{1+\delta}$ 인 경우, RFRR의 테스트 오차는 상수 요인을 제외하고 KRR와 동일하며, $N$을 더 증가시켜도 오차가 유의미하게 감소하지 않는다.
KRR는 커널의 상위 $\ell$ 개 고유함수에 대한 투영에 의해 잘 근사되며, 이때 $\ell \asymp n$이다.
RFRR와 KRR의 일반화 오차 간 격차는 정량적으로 기술되며, $N \leq n^{1-\delta}$ 인 경우 $O(n^{-\delta})$의 비율로 스케일링된다.
기저 측도의 초수축성(가우시안, 구나 초입방체 위의 균일 분포)은 차수 $\ell$의 고유함수 $f$에 대해 $\|f\|_{L^q}^2 \leq (q-1)^\ell \|f\|_{L^2}^2$를 만족함으로써 고차 모멘트 제어를 가능하게 한다.
경험적 커널 행렬은 기대값 주변에 농도를 보이며, 그 상위 고유벡터들은 고유값 분해에서의 진짜 고유벡터들과 높은 확률로 일치하여 안정적인 근사가 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.