Skip to main content
QUICK REVIEW

[论文解读] Beyond Least-Squares: Fast Rates for Regularized Empirical Risk Minimization through Self-Concordance

Ulysse Marteau-Ferey, Dmitrii M. Ostrovskii|arXiv (Cornell University)|Feb 8, 2019
Statistical Methods and Inference参考文献 37被引用 20
一句话总结

本文通过利用损失函数的自一致性质,建立了超越最小二乘法的正则化经验风险最小化问题的快速、非渐近收敛速率。它在自一致条件下引入了偏差-方差分解,通过适配的源条件和容量条件实现了改进的收敛速率,使广义线性模型(如逻辑回归)的收敛速度超过 1/√n。

ABSTRACT

We consider learning methods based on the regularization of a convex empirical risk by a squared Hilbertian norm, a setting that includes linear predictors and non-linear predictors through positive-definite kernels. In order to go beyond the generic analysis leading to convergence rates of the excess risk as $O(1/\\sqrt{n})$ from $n$ observations, we assume that the individual losses are self-concordant, that is, their third-order derivatives are bounded by their second-order derivatives. This setting includes least-squares, as well as all generalized linear models such as logistic and softmax regression. For this class of losses, we provide a bias-variance decomposition and show that the assumptions commonly made in least-squares regression, such as the source and capacity conditions, can be adapted to obtain fast non-asymptotic rates of convergence by improving the bias terms, the variance terms or both.

研究动机与目标

  • 填补非渐近分析中正则化经验风险最小化(ERM)在最小二乘法以外损失函数上的研究空白。
  • 通过引入更强的正则性假设,克服标准的 O(1/√n) 过剩风险速率,实现更快的收敛速度。
  • 将通常用于最小二乘法的源条件和容量条件扩展至自一致损失,以实现对偏差和方差的更好控制。
  • 提供一种非渐近分析,捕捉损失函数在最优参数附近的局部二次行为,即使在无渐近近似的情况下亦成立。

提出的方法

  • 假设单个损失函数是自一致的,即其三阶导数受其二阶导数的有界性控制。
  • 将正则化 ERM 问题表述为最小化经验风险加上平方希尔伯特范数正则化项。
  • 在自一致条件下推导过剩风险的偏差-方差分解,类似于最小二乘法但具有更紧的界。
  • 将源条件和容量条件适配至自一致设置,以实现对偏差和方差项的更好控制。
  • 使用浓度不等式(例如希尔伯特-施密特范数下的 Bernstein 不等式)来界定经验 Hessian 与总体 Hessian 之间的偏差。
  • 建立正则化 Hessian 与经验 Hessian 之间差值的算子范数的非渐近界,确保解的稳定性。

实验结果

研究问题

  • RQ1能否在最小二乘法以外的正则化 ERM 中实现快速的非渐近收敛速率?
  • RQ2如何将源条件和容量条件适配至自一致损失,以改善偏差和方差项?
  • RQ3自一致性质在实现损失函数非渐近局部二次近似中起到什么作用?
  • RQ4在自一致条件下,过剩风险能否被控制在 O(1/√n) 以下?若能,需满足何种条件?
  • RQ5在自一致条件下,界如何随正则化参数 λ 和样本量 n 变化?

主要发现

  • 本文证明,在自一致条件下,正则化 ERM 的过剩风险可通过同时改进偏差项和方差项,实现优于 O(1/√n) 的收敛速率。
  • 通过在期望损失 Hessian 上施加容量条件,方差项得到改进,其形式与最小二乘法类似,但已扩展至自一致损失。
  • 通过控制最优预测器 θ⋆ 在 Hessian 算子意义下的正则性,偏差项得到改善,即通过源条件实现。
  • 利用浓度不等式,推导出 Hessian 差值算子范数的非渐近界,确保正则化解的稳定性。
  • 分析表明,自一致条件下 ERM 估计器的行为等价于非渐近意义下的局部二次近似。
  • 推导出确保经验 Hessian 集中性的样本量 n 的充分条件,其显式依赖于 λ、δ 以及损失算子的迹界。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。