[论文解读] Beyond Least-Squares: Fast Rates for Regularized Empirical Risk Minimization through Self-Concordance
本文通过利用损失函数的自一致性质,建立了超越最小二乘法的正则化经验风险最小化问题的快速、非渐近收敛速率。它在自一致条件下引入了偏差-方差分解,通过适配的源条件和容量条件实现了改进的收敛速率,使广义线性模型(如逻辑回归)的收敛速度超过 1/√n。
We consider learning methods based on the regularization of a convex empirical risk by a squared Hilbertian norm, a setting that includes linear predictors and non-linear predictors through positive-definite kernels. In order to go beyond the generic analysis leading to convergence rates of the excess risk as $O(1/\\sqrt{n})$ from $n$ observations, we assume that the individual losses are self-concordant, that is, their third-order derivatives are bounded by their second-order derivatives. This setting includes least-squares, as well as all generalized linear models such as logistic and softmax regression. For this class of losses, we provide a bias-variance decomposition and show that the assumptions commonly made in least-squares regression, such as the source and capacity conditions, can be adapted to obtain fast non-asymptotic rates of convergence by improving the bias terms, the variance terms or both.
研究动机与目标
- 填补非渐近分析中正则化经验风险最小化(ERM)在最小二乘法以外损失函数上的研究空白。
- 通过引入更强的正则性假设,克服标准的 O(1/√n) 过剩风险速率,实现更快的收敛速度。
- 将通常用于最小二乘法的源条件和容量条件扩展至自一致损失,以实现对偏差和方差的更好控制。
- 提供一种非渐近分析,捕捉损失函数在最优参数附近的局部二次行为,即使在无渐近近似的情况下亦成立。
提出的方法
- 假设单个损失函数是自一致的,即其三阶导数受其二阶导数的有界性控制。
- 将正则化 ERM 问题表述为最小化经验风险加上平方希尔伯特范数正则化项。
- 在自一致条件下推导过剩风险的偏差-方差分解,类似于最小二乘法但具有更紧的界。
- 将源条件和容量条件适配至自一致设置,以实现对偏差和方差项的更好控制。
- 使用浓度不等式(例如希尔伯特-施密特范数下的 Bernstein 不等式)来界定经验 Hessian 与总体 Hessian 之间的偏差。
- 建立正则化 Hessian 与经验 Hessian 之间差值的算子范数的非渐近界,确保解的稳定性。
实验结果
研究问题
- RQ1能否在最小二乘法以外的正则化 ERM 中实现快速的非渐近收敛速率?
- RQ2如何将源条件和容量条件适配至自一致损失,以改善偏差和方差项?
- RQ3自一致性质在实现损失函数非渐近局部二次近似中起到什么作用?
- RQ4在自一致条件下,过剩风险能否被控制在 O(1/√n) 以下?若能,需满足何种条件?
- RQ5在自一致条件下,界如何随正则化参数 λ 和样本量 n 变化?
主要发现
- 本文证明,在自一致条件下,正则化 ERM 的过剩风险可通过同时改进偏差项和方差项,实现优于 O(1/√n) 的收敛速率。
- 通过在期望损失 Hessian 上施加容量条件,方差项得到改进,其形式与最小二乘法类似,但已扩展至自一致损失。
- 通过控制最优预测器 θ⋆ 在 Hessian 算子意义下的正则性,偏差项得到改善,即通过源条件实现。
- 利用浓度不等式,推导出 Hessian 差值算子范数的非渐近界,确保正则化解的稳定性。
- 分析表明,自一致条件下 ERM 估计器的行为等价于非渐近意义下的局部二次近似。
- 推导出确保经验 Hessian 集中性的样本量 n 的充分条件,其显式依赖于 λ、δ 以及损失算子的迹界。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。