[论文解读] Iteration Complexity of Randomized Block-Coordinate Descent Methods for Minimizing a Composite Function
本文提出了一种用于最小化复合凸函数的随机化块坐标下降方法,结合了光滑与非光滑分量。它建立了在概率至少 $ 1-\rho $ 下达到 $ \epsilon $-精度的迭代复杂度为 $ O(n/\epsilon \log(1/\rho)) $,相比先前工作,消除了对未知正则化参数的依赖,并推广至非欧几里得范数和任意概率向量。
In this paper we develop a randomized block-coordinate descent method for minimizing the sum of a smooth and a simple nonsmooth block-separable convex function and prove that it obtains an $ε$-accurate solution with probability at least $1-ρ$ in at most $O( frac{n}ε \log frac{1}ρ)$ iterations, where $n$ is the number of blocks. For strongly convex functions the method converges linearly. This extends recent results of Nesterov [Efficiency of coordinate descent methods on huge-scale optimization problems, CORE Discussion Paper #2010/2], which cover the smooth case, to composite minimization, while at the same time improving the complexity by the factor of 4 and removing $ε$ from the logarithmic term. More importantly, in contrast with the aforementioned work in which the author achieves the results by applying the method to a regularized version of the objective function with an unknown scaling factor, we show that this is not necessary, thus achieving true iteration complexity bounds. In the smooth case we also allow for arbitrary probability vectors and non-Euclidean norms. Finally, we demonstrate numerically that the algorithm is able to solve huge-scale $\ell_1$-regularized least squares and support vector machine problems with a billion variables.
研究动机与目标
- 开发一种高效的随机化块坐标下降方法,用于最小化由光滑与非光滑、块可分凸项组成的复合函数。
- 建立实现 $ \epsilon $-精确解的紧致迭代复杂度边界,且具有高概率。
- 消除先前工作中对未知缩放因子的正则化需求,从而实现真正的迭代复杂度。
- 将方法扩展至任意概率向量和光滑情况下的非欧几里得范数。
- 在大规模问题上展示其可扩展性,如 $ \ell_1 $-正则化最小二乘问题和大规模支持向量机。
提出的方法
- 该方法迭代地一次更新一个变量块,块的选择方式为均匀随机或根据给定的概率向量进行。
- 对于每个选定的块,对非光滑分量执行近端步骤,对光滑分量执行梯度步骤,利用高效计算的部分导数。
- 该算法采用随机化块选择策略,以避免贪婪选择带来的计算负担,同时保持收敛保证。
- 分析基于每次迭代的函数值期望下降量,利用强凸性和梯度的Lipschitz连续性。
- 提出一种新颖的复杂度分析方法,避免使用未知参数的正则化,从而得到更紧致的边界。
- 该方法支持任意概率向量和非欧几里得范数,增强了在大规模场景下的灵活性。
实验结果
研究问题
- RQ1随机化块坐标下降方法在最小化复合凸函数时的迭代复杂度是多少?
- RQ2该方法是否能在不依赖未知正则化参数的情况下实现收敛?
- RQ3在任意概率向量和非欧几里得范数下,该方法的表现如何?
- RQ4该方法能否扩展到具有十亿变量的问题?
- RQ5在大规模 $ \ell_1 $-正则化最小二乘问题和支持向量机上,该方法的实际性能如何?
主要发现
- 该方法在 $ O(n/\epsilon \log(1/\rho)) $ 次迭代内以至少 $ 1-\rho $ 的概率达到 $ \epsilon $-精度,相比先前边界提高了四倍,并消除了对数项中的 $ \epsilon $ 项。
- 对于强凸函数,该方法线性收敛,证实了在有利情况下具有快速收敛性。
- 该方法无需依赖未知缩放因子的正则化,从而实现了无需调参的真正迭代复杂度边界。
- 该算法在高达十亿变量的问题上表现出有效的可扩展性,如在包含 2989 万个特征的 kdd2010 数据集上的实验所示。
- 数值结果表明,UCDC 在不到半秒内即可求解十亿变量问题,仅经过 10 次坐标遍历后即达到高测试精度。
- 该方法在稀疏场景下效率高,每次更新仅需 $ O(o_i) $ 次操作,其中 $ o_i $ 为特征 $ i $ 的非零元素个数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。