QUICK REVIEW

[논문 리뷰] Beyond Least-Squares: Fast Rates for Regularized Empirical Risk Minimization through Self-Concordance

Ulysse Marteau-Ferey, Dmitrii M. Ostrovskii|arXiv (Cornell University)|2019. 02. 08.

Statistical Methods and Inference참고 문헌 37인용 수 20

한 줄 요약

이 논문은 손실 함수의 자기일관성(self-concordance)을 활용하여 최소 제곱법을 초월한 정규화된 경험 리스크 최소화(regularized empirical risk minimization)에 대해 빠르고 비점근적 수렴 속도를 확립한다. 자기일관성 하에서 편향-분산 분해를 도입함으로써 적응형 원천 조건과 용량 조건을 통해 향상된 수렴 속도를 달성하며, 로지스틱 회귀와 같은 일반선형 모델에서 1/√n 보다 빠른 수렴 속도를 달성한다.

ABSTRACT

We consider learning methods based on the regularization of a convex empirical risk by a squared Hilbertian norm, a setting that includes linear predictors and non-linear predictors through positive-definite kernels. In order to go beyond the generic analysis leading to convergence rates of the excess risk as $O(1/\\sqrt{n})$ from $n$ observations, we assume that the individual losses are self-concordant, that is, their third-order derivatives are bounded by their second-order derivatives. This setting includes least-squares, as well as all generalized linear models such as logistic and softmax regression. For this class of losses, we provide a bias-variance decomposition and show that the assumptions commonly made in least-squares regression, such as the source and capacity conditions, can be adapted to obtain fast non-asymptotic rates of convergence by improving the bias terms, the variance terms or both.

연구 동기 및 목표

최소 제곱법을 초월한 손실 함수에 대한 정규화된 경험 리스크 최소화(regularized empirical risk minimization, ERM)의 비점근적 분석에서의 격차를 메운다.
더 강력한 정규성 가정을 도입하여 표준적인 O(1/√n) 초과 리스크 속도를 초월하는 더 빠른 수렴 속도를 달성한다.
일반적으로 최소 제곱법에서 사용되는 원천 조건과 용량 조건을 자기일관성 손실 함수로 확장하여 편향과 분산 제어를 향상시킨다.
점근적 근사 없이도 최적 파rameter 주변에서 손실 함수의 국소적 2차 근사 행동을 포착하는 비점근적 분석을 제공한다.

제안 방법

개별 손실 함수가 자기일관성(self-concordant)이라고 가정하며, 이는 세 번째 도함수가 두 번째 도함수에 의해 유계임을 의미한다.
정규화된 ERM 문제를 경험 리스크에 힐버트 노름의 제곱형 정규화 항을 더한 형태로 공식화한다.
자기일관성 하에서 초과 리스크의 편향-분산 분해를 유도하며, 최소 제곱법과 유사하지만 더 날카운 한계를 갖는다.
자기일관성 설정에 맞게 원천 조건과 용량 조건을 적응시켜 편향과 분산 항에 대한 개선된 제어를 가능하게 한다.
농도 부등식(예: 힐버트-슈미트 노름에 대한 버진스타인 부등식)을 사용하여 경험 헤시안과 인구 헤시안 간의 편차를 유계로 제한한다.
정규화된 헤시안과 경험 헤시안 간의 차이의 연산자 노름에 대한 비점근적 경계를 확립하여 안정성을 확보한다.

실험 결과

연구 질문

RQ1자기일관성 조건 하에서 최소 제곱법을 초월한 정규화된 ERM에 대해 빠른 비점근적 수렴 속도를 달성할 수 있는가?
RQ2원천 조건과 용량 조건을 자기일관성 손실 함수로 어떻게 적응시켜 편향과 분산 항을 향상시킬 수 있는가?
RQ3자기일관성은 국소적 2차 근사가 가능한 비점근적 근사의 핵심 역할을 하는가?
RQ4자기일관성 조건 하에서 초과 리스크가 O(1/√n) 이하로 유계로 제한될 수 있는가? 만약 가능하면 어떤 조건에서 가능한가?
RQ5자기일관성 조건 하에서 정규화 파rameter λ와 표본 크기 n에 따라 경계가 어떻게 척도화되는가?

주요 결과

논문은 자기일관성 조건 하에서 정규화된 ERM의 초과 리스크가 편향과 분산 항을 모두 개선함으로써 O(1/√n)를 초월하는 더 빠른 수렴 속도를 달성할 수 있음을 입증한다.
분산 항은 경험 손실의 헤시안에 대한 용량 조건을 통해 향상되며, 이는 최소 제곱법의 경우와 유사하지만 자기일관성 손실 함수로 확장된 것이다.
편향 항은 최적 예측자 θ⋆의 정규성에 대해 헤시안 연산자에 의해 제어되는 원천 조건을 통해 향상된다.
농도 부등식을 사용하여 헤시안 차이의 연산자 노름에 대한 비점근적 경계를 도출함으로써 정규화된 해의 안정성을 확보한다.
분석 결과, 자기일관성 조건 하에서 ERM 추정기는 점근적이지 않은 조건에서도 국소적 2차 근사와 동일한 행동을 보임을 보여준다.
경험 헤시안의 농도를 보장하기 위해 표본 크기 n에 대한 충분한 조건를 유도하였으며, 이는 λ, δ, 손실 연산자의 추적 한계에 명시적인 의존성을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.