Skip to main content
QUICK REVIEW

[论文解读] Distributed coordinate descent methods for composite minimization

Ion Necoara, Dragos Clipici|arXiv (Cornell University)|Dec 18, 2013
Stochastic Gradient Optimization Techniques被引用 8
一句话总结

本文提出了一种用于复合极小化的分布式随机块坐标下降方法,该方法涉及一个部分可分的光滑凸函数和一个完全可分的非光滑凸函数。在块Lipschitz梯度假设下,该方法实现了次线性收敛速率,对于一类新的广义误差界函数(包括强凸函数和误差界函数)实现了线性收敛,其中收敛性依赖于块的选择和函数的可分性。

ABSTRACT

In this paper we propose a distributed version of a randomized block-coordinate descent method for minimizing the sum of a partially separable smooth convex function and a fully separable non-smooth convex function. Under the assumption of block Lipschitz continuity of the gradient of the smooth function, this method is shown to have a sublinear convergence rate. Linear convergence rate of the method is obtained for the newly introduced class of generalized error bound functions. We prove that the new class of generalized error bound functions encompasses both global/local error bound functions and smooth strongly convex functions. We also show that the theoretical estimates on the convergence rate depend on the number of blocks chosen randomly and a natural measure of separability of the objective function.

研究动机与目标

  • 开发一种用于具有可分结构的复合凸问题的分布式优化方法。
  • 在块Lipschitz梯度假设下分析收敛速率。
  • 为一类新的广义误差界函数建立线性收敛性。
  • 量化块选择和函数可分性对收敛速度的影响。

提出的方法

  • 该方法在分布式环境中采用随机块坐标下降,用于最小化一个光滑部分可分函数与一个非光滑完全可分函数之和。
  • 通过在分布式节点上并行执行块级梯度计算与更新来实现。
  • 收敛性分析基于光滑分量梯度的块Lipschitz连续性。
  • 该方法引入了一类新的广义误差界函数,以建立线性收敛性。
  • 理论收敛速率基于随机选择的块数和函数可分性的度量推导得出。
  • 该方法专为全梯度计算不可行的大规模问题而设计。

实验结果

研究问题

  • RQ1分布式块坐标下降方法是否能在具有可分结构的复合极小化问题中实现次线性收敛?
  • RQ2该方法是否在比以往已知更广泛的函数类下实现线性收敛?
  • RQ3随机选择的块数如何影响收敛速率?
  • RQ4目标函数的可分性度量在收敛速度中起什么作用?
  • RQ5广义误差界类是否能统一强凸函数和误差界函数的现有收敛结果?

主要发现

  • 在光滑函数梯度的块Lipschitz连续性假设下,该方法实现了次线性收敛速率。
  • 为一类新的广义误差界函数建立了线性收敛性,该类函数包括全局/局部误差界函数以及光滑强凸函数。
  • 收敛速率取决于随机选择的块数和目标函数可分性的自然度量。
  • 广义误差界类提供了一个统一框架,扩展了现有收敛结果。
  • 理论估计表明,收敛速度随可分性提高和最优块选择而提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。