Skip to main content
QUICK REVIEW

[논문 리뷰] Beyond Least-Squares: Fast Rates for Regularized Empirical Risk Minimization through Self-Concordance

Ulysse Marteau-Ferey, Dmitrii M. Ostrovskii|arXiv (Cornell University)|2019. 02. 08.
Statistical Methods and Inference참고 문헌 37인용 수 20
한 줄 요약

이 논문은 손실 함수의 자기일관성(self-concordance)을 활용하여 최소 제곱법을 초월한 정규화된 경험 리스크 최소화(regularized empirical risk minimization)에 대해 빠르고 비점근적 수렴 속도를 확립한다. 자기일관성 하에서 편향-분산 분해를 도입함으로써 적응형 원천 조건과 용량 조건을 통해 향상된 수렴 속도를 달성하며, 로지스틱 회귀와 같은 일반선형 모델에서 1/√n 보다 빠른 수렴 속도를 달성한다.

ABSTRACT

We consider learning methods based on the regularization of a convex empirical risk by a squared Hilbertian norm, a setting that includes linear predictors and non-linear predictors through positive-definite kernels. In order to go beyond the generic analysis leading to convergence rates of the excess risk as $O(1/\\sqrt{n})$ from $n$ observations, we assume that the individual losses are self-concordant, that is, their third-order derivatives are bounded by their second-order derivatives. This setting includes least-squares, as well as all generalized linear models such as logistic and softmax regression. For this class of losses, we provide a bias-variance decomposition and show that the assumptions commonly made in least-squares regression, such as the source and capacity conditions, can be adapted to obtain fast non-asymptotic rates of convergence by improving the bias terms, the variance terms or both.

연구 동기 및 목표

  • 최소 제곱법을 초월한 손실 함수에 대한 정규화된 경험 리스크 최소화(regularized empirical risk minimization, ERM)의 비점근적 분석에서의 격차를 메운다.
  • 더 강력한 정규성 가정을 도입하여 표준적인 O(1/√n) 초과 리스크 속도를 초월하는 더 빠른 수렴 속도를 달성한다.
  • 일반적으로 최소 제곱법에서 사용되는 원천 조건과 용량 조건을 자기일관성 손실 함수로 확장하여 편향과 분산 제어를 향상시킨다.
  • 점근적 근사 없이도 최적 파rameter 주변에서 손실 함수의 국소적 2차 근사 행동을 포착하는 비점근적 분석을 제공한다.

제안 방법

  • 개별 손실 함수가 자기일관성(self-concordant)이라고 가정하며, 이는 세 번째 도함수가 두 번째 도함수에 의해 유계임을 의미한다.
  • 정규화된 ERM 문제를 경험 리스크에 힐버트 노름의 제곱형 정규화 항을 더한 형태로 공식화한다.
  • 자기일관성 하에서 초과 리스크의 편향-분산 분해를 유도하며, 최소 제곱법과 유사하지만 더 날카운 한계를 갖는다.
  • 자기일관성 설정에 맞게 원천 조건과 용량 조건을 적응시켜 편향과 분산 항에 대한 개선된 제어를 가능하게 한다.
  • 농도 부등식(예: 힐버트-슈미트 노름에 대한 버진스타인 부등식)을 사용하여 경험 헤시안과 인구 헤시안 간의 편차를 유계로 제한한다.
  • 정규화된 헤시안과 경험 헤시안 간의 차이의 연산자 노름에 대한 비점근적 경계를 확립하여 안정성을 확보한다.

실험 결과

연구 질문

  • RQ1자기일관성 조건 하에서 최소 제곱법을 초월한 정규화된 ERM에 대해 빠른 비점근적 수렴 속도를 달성할 수 있는가?
  • RQ2원천 조건과 용량 조건을 자기일관성 손실 함수로 어떻게 적응시켜 편향과 분산 항을 향상시킬 수 있는가?
  • RQ3자기일관성은 국소적 2차 근사가 가능한 비점근적 근사의 핵심 역할을 하는가?
  • RQ4자기일관성 조건 하에서 초과 리스크가 O(1/√n) 이하로 유계로 제한될 수 있는가? 만약 가능하면 어떤 조건에서 가능한가?
  • RQ5자기일관성 조건 하에서 정규화 파rameter λ와 표본 크기 n에 따라 경계가 어떻게 척도화되는가?

주요 결과

  • 논문은 자기일관성 조건 하에서 정규화된 ERM의 초과 리스크가 편향과 분산 항을 모두 개선함으로써 O(1/√n)를 초월하는 더 빠른 수렴 속도를 달성할 수 있음을 입증한다.
  • 분산 항은 경험 손실의 헤시안에 대한 용량 조건을 통해 향상되며, 이는 최소 제곱법의 경우와 유사하지만 자기일관성 손실 함수로 확장된 것이다.
  • 편향 항은 최적 예측자 θ⋆의 정규성에 대해 헤시안 연산자에 의해 제어되는 원천 조건을 통해 향상된다.
  • 농도 부등식을 사용하여 헤시안 차이의 연산자 노름에 대한 비점근적 경계를 도출함으로써 정규화된 해의 안정성을 확보한다.
  • 분석 결과, 자기일관성 조건 하에서 ERM 추정기는 점근적이지 않은 조건에서도 국소적 2차 근사와 동일한 행동을 보임을 보여준다.
  • 경험 헤시안의 농도를 보장하기 위해 표본 크기 n에 대한 충분한 조건를 유도하였으며, 이는 λ, δ, 손실 연산자의 추적 한계에 명시적인 의존성을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.