QUICK REVIEW

[논문 리뷰] Approximation beats concentration? An approximation view on inference with smooth radial kernels

Mikhail A. Belkin|arXiv (Cornell University)|2018. 01. 10.

Gaussian Processes and Bayesian Inference인용 수 31

한 줄 요약

이 논문은 근사 이론을 적용하여 커널 방법에서 부드러운 라디얼 커널을 분석하며, 고유값이 거의 지수적으로 감소하고 RKHS 함수의 계수들이 빠르게 감소함을 보여주어 효과적인 저랭크 구조를 이룸. 핵심 기여는 '근사가 농도를 능가한다'는 현상: 표준 농도 결과에 비해 더 날카르고 측도에 종속되지 않는 근사 이론적 경계를 통해 고유값 감소와 지방산 산란 차원에 대한 더 날카른 경계를 제공함.

ABSTRACT

Positive definite kernels and their associated Reproducing Kernel Hilbert Spaces provide a mathematically compelling and practically competitive framework for learning from data. In this paper we take the approximation theory point of view to explore various aspects of smooth kernels related to their inferential properties. We analyze eigenvalue decay of kernels operators and matrices, properties of eigenfunctions/eigenvectors and "Fourier" coefficients of functions in the kernel space restricted to a discrete set of data points. We also investigate the fitting capacity of kernels, giving explicit bounds on the fat shattering dimension of the balls in Reproducing Kernel Hilbert spaces. Interestingly, the same properties that make kernels very effective approximators for functions in their "native" kernel space, also limit their capacity to represent arbitrary functions. We discuss various implications, including those for gradient descent type methods. It is important to note that most of our bounds are measure independent. Moreover, at least in moderate dimension, the bounds for eigenvalues are much tighter than the bounds which can be obtained from the usual matrix concentration results. For example, we see that the eigenvalues of kernel matrices show nearly exponential decay with constants depending only on the kernel and the domain. We call this "approximation beats concentration" phenomenon as even when the data are sampled from a probability distribution, some of their aspects are better understood in terms of approximation theory.

연구 동기 및 목표

커널 방법의 분석을 농도 부등식 대신 근사 이론으로 재구성하기.
특히 임의의 함수를 피팅하는 데 있어 부드러운 라디얼 커널의 추론적 제약 이해하기.
RKHS 공역에 대한 고유값 감소와 지방산 산란 차원에 대한 측도에 종속되지 않는 경계 제공하기.
커널 폭과 RKHS 능력 간의 관계를 명확히 하여 더 넓은 커널이 더 작은 함수 공간을 유도함을 보여주기.
부드러운 커널을 사용할 때 경사 하강법가 랜덤 레이블을 피팅하기 어려운 이유를 계수 감소와 계산 복잡성과 연결하여 설명하기.

제안 방법

근사 이론을 사용하여 커널 연산자와 행렬의 고유값 감소를 분석하며, 데이터 측도에 종속되지 않는 거의 지수적 감소를 보임.
RKHS의 푸리에 도메인 특성화를 이용하여 서로 다른 커널 폭에 의해 유도되는 함수 공간을 비교함.
계수 감소와 스펙트럼 성질을 이용하여 RKHS 공역의 지방산 산란 차원에 대한 경계 유도함.
커널 행렬의 최상위 고유벡터들이 커널 함수의 선형 조합에 의해 거의 지수적으로 근사될 수 있음을 보임.
고유함수 근사 결과를 적용하여 최상위 고유벡터의 스트림이 측도 변화에 대해 안정적임을 보임.
부드러운 라디얼 커널이 빠르게 감소하는 푸리에 변환을 가짐을 이용하여 RKHS 노름과 함수 공간 포함성에 대한 경계 유도함.

실험 결과

연구 질문

RQ1왜 표준 행렬 농도 결과는 커널 행렬 고유값의 진짜 감소율을 포착하지 못하는가?
RQ2큰 데이터가 있더라도 부드러운 라디얼 커널이 얼마나 커널 방법의 피팅 능력을 제한하는가?
RQ3커널 폭의 선택이 해당 RKHS의 함수 공간에 어떻게 영향을 미치는가?
RQ4근사 이론이 농도 기반 방법보다 RKHS 공역의 지방산 산란 차원에 대해 더 날카로운 경계를 제공할 수 있는가?
RQ5왜 부드러운 커널은 랜덤 레이블을 피팅하기 어려하고, 이는 고유기저에서의 계수 감소와 어떻게 관련되는가?

주요 결과

부드러운 라디얼 커널 행렬의 고유값은 커널과 차원에만 의존하는 상수를 가지며, 데이터 측도에 종속되지 않고 거의 지수적으로 감소함.
부드러운 커널의 RKHS에 속한 함수는 데이터 측도에 관계없이 고유기저에서 푸리에 계수가 거의 지수적으로 감소함.
커널 행렬의 최상위 고유벡터 스트림은 데이터 점에 중심을 둔 커널 함수의 선형 조합에 의해 거의 지수적으로 근사될 수 있음.
RKHS의 반지름 R의 공역의 지방산 산란 차원은 R/γ에 대해 다항 로그적임. 이는 정규화 및 경사 기반 방법의 피팅 능력을 제한함.
더 넓은 가우시안 커널은 더 작은 RKHS 공간을 유도함: 더 넓은 커널의 RKHS는 더 좁은 커널의 RKHS에 포함되며, 노름은 σ^{-d/2} 비례로 스케일링됨.
부드러운 커널을 사용할 때 랜덤 레이블을 피팅하기 위해 경사 하강법는 지수적으로 작은 계수를 고유기저에서 필요로 하여 초승격 복잡도를 겪음.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.