Skip to main content
QUICK REVIEW

[论文解读] Randomized Block Coordinate Descent for Online and Stochastic Optimization

Huahua Wang, Arindam Banerjee|arXiv (Cornell University)|Jul 1, 2014
Stochastic Gradient Optimization Techniques参考文献 41被引用 27
一句话总结

本文提出了一种新型方法——在线随机块坐标下降法(ORBCD),该方法结合了随机梯度下降与随机块坐标下降,用于大规模复合优化。通过每次迭代使用小批量梯度更新一个坐标块,ORBCD 在迭代复杂度上与 OGD/SGD 保持一致,并通过方差减少技术在强凸函数下实现期望意义上的几何收敛,其收敛速率与 SVRG 和 RBCD 的最优已知速率相匹配。

ABSTRACT

Two types of low cost-per-iteration gradient descent methods have been extensively studied in parallel. One is online or stochastic gradient descent (OGD/SGD), and the other is randomzied coordinate descent (RBCD). In this paper, we combine the two types of methods together and propose online randomized block coordinate descent (ORBCD). At each iteration, ORBCD only computes the partial gradient of one block coordinate of one mini-batch samples. ORBCD is well suited for the composite minimization problem where one function is the average of the losses of a large number of samples and the other is a simple regularizer defined on high dimensional variables. We show that the iteration complexity of ORBCD has the same order as OGD or SGD. For strongly convex functions, by reducing the variance of stochastic gradients, we show that ORBCD can converge at a geometric rate in expectation, matching the convergence rate of SGD with variance reduction and RBCD.

研究动机与目标

  • 解决具有非重叠正则化项的大规模、高维复合优化问题中的计算瓶颈。
  • 统一在线/随机梯度下降(OGD/SGD)与随机块坐标下降(RBCD)的效率,以提升可扩展性。
  • 开发一种方法,在保持低每轮迭代成本的同时,实现对强凸目标的快速收敛。
  • 在数据在空间和时间上分布的场景中实现高效优化,其中全批量方法不可行。

提出的方法

  • 提出 ORBCD,一种在线算法,每次迭代随机选择一个坐标块和一个样本小批量,以计算部分梯度。
  • 使用邻近步骤处理非光滑正则化项,整合复合最小化问题的结构。
  • 引入受 SVRG 启发的方差减少机制,定期计算全梯度以降低随机更新中的噪声。
  • 通过包含到最优解距离和正则化势函数的李雅普诺夫函数分析建立收敛性。
  • 推导出一个递推不等式,表明期望次优性呈指数衰减,从而在强凸函数下实现几何收敛。
  • 采用一种步长规则,平衡收敛速度与稳定性,确保收缩因子 ρ < 1。

实验结果

研究问题

  • RQ1结合在线/随机梯度下降与随机块坐标下降的混合方法,能否实现与最先进方法相当的收敛速率?
  • RQ2ORBCD 是否在保持低每轮迭代成本的同时,实现对强凸函数的几何收敛?
  • RQ3SVRG 中的方差减少技术能否有效适配到块坐标设置下的在线优化?
  • RQ4在复合最小化框架中,ORBCD 的迭代复杂度与 OGD/SGD 和 RBCD 相比如何?

主要发现

  • ORBCD 达到了与 OGD/SGD 相同的迭代复杂度阶,使其适用于样本数量庞大的大规模问题。
  • 对于强凸函数,ORBCD 在期望意义下以几何速率收敛,其收敛速度与使用方差减少的 SVRG 和 RBCD 相匹配。
  • 收敛速率通过一种新颖的李雅普诺夫函数建立,该函数追踪到最优解的距离和正则化势函数。
  • 在适切选择步长时,收敛证明中的收缩因子 ρ 严格小于 1,确保次优性呈指数衰减。
  • 该方法适用于具有块可分、非光滑正则化项的问题,如 Lasso、组 Lasso 和稀疏组 Lasso。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。