Skip to main content
QUICK REVIEW

[论文解读] Stochastic Primal-Dual Coordinate Method for Regularized Empirical Risk Minimization

Yuchen Zhang, Lin Xiao|arXiv (Cornell University)|Sep 10, 2014
Sparse and Compressive Sensing Techniques参考文献 49被引用 107
一句话总结

本文提出了一种用于大规模机器学习中正则化经验风险最小化的随机原始-对偶坐标(SPDC)方法。该方法在随机对偶更新与带外推的原始更新之间交替进行,实现了加速收敛,并支持高效的小批量和加权采样变体,同时具备更优的复杂度界。

ABSTRACT

We consider a generic convex optimization problem associated with regularized empirical risk minimization of linear predictors. The problem structure allows us to reformulate it as a convex-concave saddle point problem. We propose a stochastic primal-dual coordinate (SPDC) method, which alternates between maximizing over a randomly chosen dual variable and minimizing over the primal variable. An extrapolation step on the primal variable is performed to obtain accelerated convergence rate. We also develop a mini-batch version of the SPDC method which facilitates parallel computing, and an extension with weighted sampling probabilities on the dual variables, which has a better complexity than uniform sampling on unnormalized data. Both theoretically and empirically, we show that the SPDC method has comparable or better performance than several state-of-the-art optimization methods.

研究动机与目标

  • 解决大规模正则化经验风险最小化(ERM)问题中批量梯度方法计算效率低下的问题。
  • 开发一种优化方法,在保持低每轮迭代成本的同时,实现病态条件数κ较高的问题的快速收敛。
  • 通过小批量变体实现高效并行化,并通过对偶变量的加权采样提升收敛性能。
  • 在标准光滑性和强凸性假设下,提供理论收敛保证,其复杂度界优于或匹配当前最先进方法。

提出的方法

  • 将正则化ERM问题重新表述为凸-凹鞍点问题,以支持原始-对偶优化。
  • 提出一种随机原始-对偶坐标(SPDC)方法,通过迭代地对随机选择的对偶变量进行最大化,并对原始变量进行最小化。
  • 在原始变量更新中引入外推步骤,以加速收敛,从而实现更优的迭代复杂度。
  • 设计SPDC的小批量版本,以支持并行与分布式计算,降低整体运行时间。
  • 引入对偶变量的加权采样概率,其理论复杂度优于均匀采样,尤其在未归一化的数据上表现更优。
  • 针对(ℓ₁ + ℓ₂)-范数正则化情形,基于符号与阈值化逻辑,设计出O(1)的坐标更新过程,实现递归闭式公式。

实验结果

研究问题

  • RQ1随机原始-对偶坐标方法能否在大规模ERM问题上实现比现有增量与随机梯度方法更快的收敛速度?
  • RQ2在原始更新中引入外推步骤对SPDC方法的收敛速率有何影响?
  • RQ3在加权采样下,SPDC的理论复杂度与均匀采样相比如何?其在未归一化数据上是否具有优势?
  • RQ4SPDC方法能否通过小批量扩展实现高效并行化,同时保持收敛保证?
  • RQ5SPDC在标准机器学习基准测试中,与SAG、SDCA和SVRG等最先进优化算法相比,其实际表现如何?

主要发现

  • SPDC方法在满足光滑性与强凸性假设的问题上,实现了加速收敛,其迭代复杂度为O(κ log(1/ε))。
  • SPDC的小批量变体支持高效并行化,并在大规模数据集上保持收敛保证的同时,显著降低运行时间。
  • 对偶变量的加权采样相比均匀采样,可获得更优的理论复杂度界,尤其在特征未归一化的数据上优势明显。
  • 对于(ℓ₁ + ℓ₂)-正则化问题,该方法可通过递归闭式解实现O(1)的每坐标更新,从而实现快速且内存高效的计算。
  • 实验结果表明,SPDC在收敛速度和最终目标值方面,与SAG、SDCA和SVRG等最先进方法相比表现相当或更优。
  • 理论分析证实,该方法在标准假设下保持线性收敛,其条件数依赖关系与现有方法相比达到或超越。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。