[论文解读] Un-regularizing: approximate proximal point and faster stochastic algorithms for empirical risk minimization
本文提出了一种新颖的框架,通过使用近似邻近点法将原始问题转化为具有大强凸性的正则化子问题,从而加速经验风险最小化(ERM)的随机算法。通过在这些子问题上应用快速随机求解器并结合黑箱约化方法,该方法在不引入正则化通常带来的偏差的前提下实现了加速收敛速率,在多种问题设置下显著提升了运行时间。
We develop a family of accelerated stochastic algorithms that minimize sums of convex functions. Our algorithms improve upon the fastest running time for empirical risk minimization (ERM), and in particular linear least-squares regression, across a wide range of problem settings. To achieve this, we establish a framework based on the classical proximal point algorithm. Namely, we provide several algorithms that reduce the minimization of a strongly convex function to approximate minimizations of regularizations of the function. Using these results, we accelerate recent fast stochastic algorithms in a black-box fashion. Empirically, we demonstrate that the resulting algorithms exhibit notions of stability that are advantageous in practice. Both in theory and in practice, the provided algorithms reap the computational benefits of adding a large strongly convex regularization term, without incurring a corresponding bias to the original problem.
研究动机与目标
- 解决现有ERM随机算法收敛速率次优的问题,特别是其对条件数的依赖性。
- 弥合求解小正则化ERM以实现加速的算法与求解无正则化ERM以获得无偏解的算法之间的差距。
- 开发一种黑箱约化方法,仅通过求解具有大正则化的正则化子问题,即可实现无正则化ERM的加速。
- 在高维、病态条件问题中,同时改进理论运行时间保证与实际稳定性。
提出的方法
- 该框架使用经典邻近点算法(PPA)的近似变体,通过求解具有大强凸性的正则化子问题,迭代最小化原始目标函数。
- 将μ-强凸函数f的最小化问题,约化为对f(x) + (λ/2)‖x−x₀‖²的近似最小化,其中λ ≥ 2μ。
- 该方法为内层最小化过程提供了理论精度边界,确保外层循环仅需在条件数的多对数时间内实现线性收敛。
- 通过将快速随机求解器(如SVRG、SDCA)作为内层最小化器,并结合一种新型外层循环,实现对近邻项的重新中心化,从而实现加速。
- 该方法允许在子问题中使用更大的正则化,从而在不显著引入原始解偏差的前提下,增强数值稳定性与收敛速度。
- 当内层最小化器通过对偶性实现时,采用对偶上升法进一步提升实际性能。
实验结果
研究问题
- RQ1我们能否在不引入显式正则化偏差的前提下,实现无正则化ERM的加速收敛?
- RQ2如何减少随机ERM算法对问题条件数的依赖?
- RQ3内层最小化过程需要达到何种近似精度,才能确保外层循环的线性收敛?
- RQ4我们能否在子问题中使用大正则化来稳定并加速收敛,同时仍能恢复原始问题的精确解?
- RQ5在稳定性与收敛速度方面,该框架与SGD、SVRG和SDCA等标准算法相比,实际表现如何?
主要发现
- 所提出的加速近似邻近点算法(APP)在原始ERM问题上实现了O(1/c)的收敛速率,与求解正则化子问题相比,运行时间开销为O(√(⌈λ/μ⌉)polylog(λ/μ))。
- 该方法在强凸性与光滑性假设下实现了ERM的加速,优于以往算法中条件数依赖次优或需小正则化的问题。
- 实验结果表明,Dual APPA(所提算法)在不同数据集(MNIST、CIFAR、Protein)上均表现出更优的稳定性和收敛行为,尤其在超参数选择不佳时。
- 与SGD和SVRG相比,SDCA和APPA在λ增大时退化得更平缓,而SGD和SVRG在λ被高估时表现出剧烈发散。
- 即使SDCA运行至收敛,APPA达到的最终目标函数值也始终低于SDCA和SGD,表明对近邻项的重新中心化显著提升了解的质量。
- 该框架通过有效利用子问题中的大正则化,在包括线性最小二乘和逻辑回归在内的广泛问题设置中,实现了比最先进方法更快的收敛速度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。