Skip to main content
QUICK REVIEW

[论文解读] On the Complexity Analysis of Randomized Block-Coordinate Descent Methods

Zhaosong Lu, Lin Xiao|arXiv (Cornell University)|May 21, 2013
Sparse and Compressive Sensing Techniques参考文献 20被引用 23
一句话总结

本文对复合凸优化中的随机块坐标下降(RBCD)方法进行了精细化的复杂度分析,将Nesterov的技术扩展至复合问题,以改进期望值收敛速率和高概率迭代复杂度。提出了一种新颖的随机估计序列技术用于加速RBCD,其收敛界比以往工作更紧,尤其将高概率复杂度改进了$O(n/\theta)$,其中$ heta$为目标精度,$n$为块数。

ABSTRACT

In this paper we analyze the randomized block-coordinate descent (RBCD) methods proposed in [8,11] for minimizing the sum of a smooth convex function and a block-separable convex function. In particular, we extend Nesterov's technique developed in [8] for analyzing the RBCD method for minimizing a smooth convex function over a block-separable closed convex set to the aforementioned more general problem and obtain a sharper expected-value type of convergence rate than the one implied in [11]. Also, we obtain a better high-probability type of iteration complexity, which improves upon the one in [11] by at least the amount $O(n/ε)$, where $ε$ is the target solution accuracy and $n$ is the number of problem blocks. In addition, for unconstrained smooth convex minimization, we develop a new technique called {\it randomized estimate sequence} to analyze the accelerated RBCD method proposed by Nesterov [11] and establish a sharper expected-value type of convergence rate than the one given in [11].

研究动机与目标

  • 改进随机块坐标下降(RBCD)方法在最小化光滑凸函数与块可分凸函数之和时的期望值收敛速率。
  • 建立RBCD的更紧致的高概率迭代复杂度,相比现有界改进$O(n/\epsilon)$,其中$\epsilon$为目标精度,$n$为块数。
  • 通过一种新的随机估计序列框架,将Nesterov的加速RBCD技术扩展至复合问题。
  • 在一般块可分结构下,统一并强化非加速与加速RBCD变体的收敛性分析。
  • 解决RBCD中均匀选择与非均匀选择策略在收敛速率紧致性上的差距,尤其针对含指示函数或$\ell_1$-正则化的优化问题。

提出的方法

  • 将Nesterov的分析技术从块可分集上的光滑凸优化推广至包含光滑函数与块可分正则项的复合问题。
  • 提出一种随机估计序列框架以分析加速RBCD,从而实现更紧致的期望值收敛速率界。
  • 采用随机更新规则:在每次迭代中,以均匀概率随机选择一个块,并通过涉及部分梯度与利普希茨常数$L_i$的近端子问题进行更新。
  • 推导出期望对偶间隙$\phi_k^\star$的递推关系,利用条件期望与凸性来界定最优性间隙的衰减。
  • 引入序列$\gamma_k$,满足$\alpha_k^2 = \gamma_{k+1}$,以控制动量并推导误差项的几何衰减率。
  • 通过归纳法及涉及$\|d(y^k)\|_L^2$与$\langle \nabla f(y^k), v^k - y^k \rangle$的不等式,建立收敛速率。

实验结果

研究问题

  • RQ1Nesterov的加速RBCD技术能否扩展至具有块可分正则项的复合问题?可实现何种收敛速率?
  • RQ2在复合设置下,随机块坐标下降的最优期望值收敛速率的最紧可能值是什么?
  • RQ3RBCD的高概率迭代复杂度与现有界相比如何?能否实现$O(n/\epsilon)$的改进?
  • RQ4能否构建一个统一的分析框架,使非加速与加速RBCD在单一估计序列构造下统一?
  • RQ5为何在某些情况下均匀选择优于非自适应加权策略?这一现象能否从理论上解释?

主要发现

  • 本文建立的复合问题中RBCD的期望值收敛速率比Richtárik和Takáč(2011)所隐含的更紧,改进幅度与块结构相关。
  • 与Richtárik和Takáč(2011)的界相比,高概率迭代复杂度至少改进$O(n/\epsilon)$,其中$\epsilon$为目标精度,$n$为块数。
  • 对于无约束光滑凸优化问题,随机估计序列技术的期望值收敛速率比Nesterov(2012)给出的结果更紧,对条件数的依赖更优。
  • 收敛速率衰减形式为$\lambda_k \leq \left(\frac{n}{n + k\sqrt{\gamma_0}/2}\right)^2$,表明具有改进常数的次线性收敛速率。
  • 分析证明,在所选参数化下,对所有$k$均有$\gamma_k \geq \mu$,确保动量序列的稳定与收敛。
  • 期望对偶间隙的界满足$\mathbf{E}_{\xi_{k-1}}[f(x^k) - f^\star] \leq \lambda_k (f(x^0) - f^\star + \frac{\gamma_0}{2}\|x^0 - x^\star\|_L^2)$,其中$\lambda_k$呈几何衰减。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。