QUICK REVIEW

[论文解读] Beyond Least-Squares: Fast Rates for Regularized Empirical Risk Minimization through Self-Concordance

Ulysse Marteau-Ferey, Dmitrii M. Ostrovskii|arXiv (Cornell University)|Feb 8, 2019

Statistical Methods and Inference参考文献 37被引用 20

一句话总结

本文通过利用损失函数的自一致性质，建立了超越最小二乘法的正则化经验风险最小化问题的快速、非渐近收敛速率。它在自一致条件下引入了偏差-方差分解，通过适配的源条件和容量条件实现了改进的收敛速率，使广义线性模型（如逻辑回归）的收敛速度超过 1/√n。

ABSTRACT

We consider learning methods based on the regularization of a convex empirical risk by a squared Hilbertian norm, a setting that includes linear predictors and non-linear predictors through positive-definite kernels. In order to go beyond the generic analysis leading to convergence rates of the excess risk as $O(1/\\sqrt{n})$ from $n$ observations, we assume that the individual losses are self-concordant, that is, their third-order derivatives are bounded by their second-order derivatives. This setting includes least-squares, as well as all generalized linear models such as logistic and softmax regression. For this class of losses, we provide a bias-variance decomposition and show that the assumptions commonly made in least-squares regression, such as the source and capacity conditions, can be adapted to obtain fast non-asymptotic rates of convergence by improving the bias terms, the variance terms or both.

研究动机与目标

填补非渐近分析中正则化经验风险最小化（ERM）在最小二乘法以外损失函数上的研究空白。
通过引入更强的正则性假设，克服标准的 O(1/√n) 过剩风险速率，实现更快的收敛速度。
将通常用于最小二乘法的源条件和容量条件扩展至自一致损失，以实现对偏差和方差的更好控制。
提供一种非渐近分析，捕捉损失函数在最优参数附近的局部二次行为，即使在无渐近近似的情况下亦成立。

提出的方法

假设单个损失函数是自一致的，即其三阶导数受其二阶导数的有界性控制。
将正则化 ERM 问题表述为最小化经验风险加上平方希尔伯特范数正则化项。
在自一致条件下推导过剩风险的偏差-方差分解，类似于最小二乘法但具有更紧的界。
将源条件和容量条件适配至自一致设置，以实现对偏差和方差项的更好控制。
使用浓度不等式（例如希尔伯特-施密特范数下的 Bernstein 不等式）来界定经验 Hessian 与总体 Hessian 之间的偏差。
建立正则化 Hessian 与经验 Hessian 之间差值的算子范数的非渐近界，确保解的稳定性。

实验结果

研究问题

RQ1能否在最小二乘法以外的正则化 ERM 中实现快速的非渐近收敛速率？
RQ2如何将源条件和容量条件适配至自一致损失，以改善偏差和方差项？
RQ3自一致性质在实现损失函数非渐近局部二次近似中起到什么作用？
RQ4在自一致条件下，过剩风险能否被控制在 O(1/√n) 以下？若能，需满足何种条件？
RQ5在自一致条件下，界如何随正则化参数 λ 和样本量 n 变化？

主要发现

本文证明，在自一致条件下，正则化 ERM 的过剩风险可通过同时改进偏差项和方差项，实现优于 O(1/√n) 的收敛速率。
通过在期望损失 Hessian 上施加容量条件，方差项得到改进，其形式与最小二乘法类似，但已扩展至自一致损失。
通过控制最优预测器 θ⋆ 在 Hessian 算子意义下的正则性，偏差项得到改善，即通过源条件实现。
利用浓度不等式，推导出 Hessian 差值算子范数的非渐近界，确保正则化解的稳定性。
分析表明，自一致条件下 ERM 估计器的行为等价于非渐近意义下的局部二次近似。
推导出确保经验 Hessian 集中性的样本量 n 的充分条件，其显式依赖于 λ、δ 以及损失算子的迹界。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。