QUICK REVIEW

[论文解读] An Accelerated Proximal Coordinate Gradient Method and its Application to Regularized Empirical Risk Minimization

Qihang Lin, Zhaosong Lu|arXiv (Cornell University)|Jul 4, 2014

Stochastic Gradient Optimization Techniques参考文献 36被引用 39

一句话总结

本文提出了一种用于凸复合优化的加速近端坐标梯度（APCG）方法，结合Nesterov风格加速与随机块坐标更新，实现更快的收敛速度。该方法在强凸问题中实现加速线性收敛率，在无强凸性条件下实现改进的次线性收敛率，在实际应用中优于SDCA和AFG方法，尤其在病态条件的正则化经验风险最小化问题上表现更优。

ABSTRACT

We consider the problem of minimizing the sum of two convex functions: one is smooth and given by a gradient oracle, and the other is separable over blocks of coordinates and has a simple known structure over each block. We develop an accelerated randomized proximal coordinate gradient (APCG) method for minimizing such convex composite functions. For strongly convex functions, our method achieves faster linear convergence rates than existing randomized proximal coordinate gradient methods. Without strong convexity, our method enjoys accelerated sublinear convergence rates. We show how to apply the APCG method to solve the regularized empirical risk minimization (ERM) problem, and devise efficient implementations that avoid full-dimensional vector operations. For ill-conditioned ERM problems, our method obtains improved convergence rates than the state-of-the-art stochastic dual coordinate ascent (SDCA) method.

研究动机与目标

开发一种加速的随机近端坐标梯度方法，以实现凸复合优化问题的更快收敛。
解决现有方法在处理病态条件的正则化经验风险最小化（ERM）问题时的局限性。
实现无需全维向量运算的高效实现，提升大规模机器学习问题的可扩展性。
在强凸条件下实现加速线性收敛，在一般情况下实现加速次线性收敛。

提出的方法

APCG方法采用随机块坐标更新，并通过近端子问题最小化光滑函数f与块可分的非光滑函数Ψ之和。
通过类似动量的更新和估计序列框架，引入Nesterov的加速技术，以提升收敛速率。
通过使用缩放变量u̅和p̅，以数值稳定的方式维护两个辅助向量u和p，防止在ρk+1 → 0时发生溢出。
采用线搜索策略自适应调整步长，提升实际性能。
通过利用稀疏性和块结构，避免全维向量运算，实现在大规模数据集上的高效计算。
对于ERM问题，采用平滑的合页损失，并重新表述对偶问题，以支持高效的坐标更新。

实验结果

研究问题

RQ1能否设计一种加速近端坐标梯度方法，使其在正则化ERM问题上的收敛速度优于现有随机坐标下降方法？
RQ2在存在非光滑、块可分正则化的情况下，如何有效结合加速与块坐标更新？
RQ3所提出的APCG方法在病态ERM问题上是否相比SDCA和AFG实现了改进的收敛速率？
RQ4该方法能否在不进行全维向量运算的情况下高效实现，同时保持可扩展性？

主要发现

APCG方法在强凸问题中实现了加速线性收敛速率，优于现有随机近端坐标梯度方法。
在非强凸问题中，其恢复了APPROX方法的加速次线性收敛速率，提供了一个统一的框架。
在病态ERM问题上，APCG比SDCA和AFG更有效地减少原始目标函数间隙和原始-对偶间隙，尤其在小正则化参数（λ = 10−8）时表现更优。
在RCV1、covtype和News20数据集上的数值实验表明，APCG在所有设置下均保持优越性能，即使在省略最终近端全梯度步骤后依然如此。
该方法在数值上稳定且高效，每次迭代的计算成本仅为SDCA的两倍，得益于稀疏运算和稳定的变量缩放。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。