QUICK REVIEW

[논문 리뷰] Sobolev Norm Learning Rates for Regularized Least-Squares Algorithm

Simon Fischer, Ingo Steinwart|arXiv (Cornell University)|2017. 02. 23.

Sparse and Compressive Sensing Techniques참고 문헌 31인용 수 24

한 줄 요약

이 논문은 진정한 회귀 함수가 가설 공간에 포함되지 않을 경우조차도, 표준 $L_2$-노름보다 더 강한 소볼레프 유형의 노름에서 정규화된 최소 제곱 알고리즘의 학습률을 확립한다. 적분 연산자 기법과 새로운 통합 성질을 결합하여, 보간 공간에서 유한 표본 경계와 최적 수렴 속도를 도출하며, 딱지 학습 시나리오에서 처음으로 $L_∞$-노름 수렴 속도를 확립한다.

ABSTRACT

Learning rates for least-squares regression are typically expressed in terms of $L_2$-norms. In this paper we extend these rates to norms stronger than the $L_2$-norm without requiring the regression function to be contained in the hypothesis space. In the special case of Sobolev reproducing kernel Hilbert spaces used as hypotheses spaces, these stronger norms coincide with fractional Sobolev norms between the used Sobolev space and $L_2$. As a consequence, not only the target function but also some of its derivatives can be estimated without changing the algorithm. From a technical point of view, we combine the well-known integral operator techniques with an embedding property, which so far has only been used in combination with empirical process arguments. This combination results in new finite sample bounds with respect to the stronger norms. From these finite sample bounds our rates easily follow. Finally, we prove the asymptotic optimality of our results in many cases.

연구 동기 및 목표

커널 기반 회귀에서 표준 $L_2$-노름을 초월하여 더 강한 노름, 예를 들어 소볼레프 및 보간 노름에서 학습률 분석을 확장하는 것.
진정한 회귀 함수 $f^*_P$가 재생 핵 힐버트 공간(RKHS)에 포함되지 않는 딱지 학습 시나리오를 다루는 것.
$L_2$와 RKHS $H$ 사이의 연속 척도 $[H]^γ$에 속하는 노름에 대한 유한 표본 경계와 학습률을 도출하는 것.
많은 경우에서 유도된 학습률의 渐近 최적성, 특히 최소 최대 최적성(minimax optimality)을 증명하는 것.
정규화된 최소 제곱 알고리즘에서 딱지 학습 시나리오에서 처음으로 $L_∞$-노름 학습률을 확립하는 것.

제안 방법

일반적으로 $L_2$-노름 수렴 속도 분석에 사용되는 적분 연산자 기법과, 이전에 잘 활용되지 않았던 RKHS의 새로운 통합 성질을 조합하는 것.
$\gamma \in (0,1)$에 대해 보간 노름 $[H]^γ$의 척도를 도입하며, 여기서 $[H]^0 = L_2$, $[H]^1 = H$, 그리고 $[H]^γ$는 분수 차수의 소볼레프 또는 베소프 공간에 해당한다.
힐베르트 공간 값의 랜덤 변수에 대한 베르누이 타입 부등식을 사용하여 경험 과정 성분을 제어하는 것.
힐베르트-슈미트 연산자에 대한 농도 불등식을 적용하여 경험 핵 연산자와 기대값 간의 편차를 제한하는 것.
적분 연산자 프레임워크와 통합 조건 간의 상호작용을 이용하여 일반화 오차 $\|f_{D,\lambda} - f^*_P\|_{[H]^\gamma}$에 대한 유한 표본 경계를 도출하는 것.
스펙트럼 성질과 통합 조건을 활용하여 정규화된 해가 더 강한 $[H]^\gamma$-노름에서 어떻게 감쇠하는지 분석함으로써 학습률을 확립하는 것.

실험 결과

연구 질문

RQ1진정한 함수 $f^*_P \notin H$일 경우에도, 정규화된 최소 제곱 회귀에서 $L_2$를 초월하는 더 강한 노름에서 학습률을 확립할 수 있는가?
RQ2RKHS의 통합 성질이 $L_2$-노름을 초월한 학습률 향상에 어떤 역할을 하는가?
RQ3유도된 보간 노름 $[H]^\gamma$에서의 학습률이 최소 최대 의미에서 최적이 되는가?
RQ4적분 연산자 기법을 통해 딱지 학습 시나리오에서 $L_\infty$-노름 학습률을 달성할 수 있는가?
RQ5적분 연산자 방법과 통합 성질의 조합이 더 날카운 유한 표본 경계를 어떻게 도출하는가?

주요 결과

논문은 $\gamma \in (0,1)$에 대해, $f^*_P \notin H$일 경우에도 보간 노름 $[H]^\gamma$에서 일반화 오차에 대한 유한 표본 경계를 확립한다.
$[H]^\gamma$-노름에서의 학습률은 많은 경우에서 渐近적으로 최적이며, 알려진 최소 최대 하한선과 일치함을 보였다.
소볼레프 또는 베소프 RKHS의 경우, 노름 $[H]^\gamma$는 고전적인 분수 차수 소볼레프 노름에 해당하여, 알고리즘을 수정하지 않고도 도함수 추정이 가능하다.
저자들은 딱지 학습 시나리오에서 처음으로 $L_\infty$-노름 학습률을 도출하였으며, 이는 통합 성질과 적분 연산자 기법을 통해 달성되었다.
블랑카르드와 뮤케(2014) 및 린 등(2017)의 이전 결과보다 향상되었으며, 통합 조건이 성립할 경우 더 빠른 수렴 속도를 달성한다.
연산자 노름을 제어하기 위해 함수 $f_{\lambda,\alpha}(t) = \frac{t^\alpha}{(\lambda + t)^\alpha}$의 Supremum에 대한 경계를 사용하였으며, $\sup_t f_{\lambda,\alpha}(t) \leq \lambda^{\alpha-1}$임을 이용하였는데, 이는 분석에 핵심적인 역할을 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.