QUICK REVIEW

[论文解读] Coordinate Descent with Arbitrary Sampling I: Algorithms and Complexity

Zheng Qu, Peter Richtárik|arXiv (Cornell University)|Dec 27, 2014

Stochastic Gradient Optimization Techniques参考文献 27被引用 33

一句话总结

本文提出ALPHA，一种统一的随机坐标下降方法，支持任意采样分布（包括重要性采样），用于求解复合凸优化问题。其复杂度分析统一并改进了现有针对串行、并行、加速和分布式变体的结果，在一般采样方案下实现了最优收敛速率。

ABSTRACT

We study the problem of minimizing the sum of a smooth convex function and a convex block-separable regularizer and propose a new randomized coordinate descent method, which we call ALPHA. Our method at every iteration updates a random subset of coordinates, following an arbitrary distribution. No coordinate descent methods capable to handle an arbitrary sampling have been studied in the literature before for this problem. ALPHA is a remarkably flexible algorithm: in special cases, it reduces to deterministic and randomized methods such as gradient descent, coordinate descent, parallel coordinate descent and distributed coordinate descent -- both in nonaccelerated and accelerated variants. The variants with arbitrary (or importance) sampling are new. We provide a complexity analysis of ALPHA, from which we deduce as a direct corollary complexity bounds for its many variants, all matching or improving best known bounds.

研究动机与目标

填补复合凸优化中使用任意采样分布的坐标下降方法在理论分析方面的空白。
在单一算法框架下统一串行、并行、加速、分布式等不同变体的坐标下降方法。
提供复杂度分析，使其与现有专用方法的最先进界相匹配或更优。
在保持理论收敛保证的前提下，支持在坐标下降中使用重要性采样。
简化分析过程，使其对广大研究群体更易理解，同时保持边界的通用性和紧致性。

提出的方法

提出ALPHA，一种随机坐标下降算法，每次迭代根据任意概率分布更新一组随机坐标。
引入一个新颖的技术假设，用于刻画在采样坐标张成的随机子空间中目标函数的光滑性。
采用三点估计技术来界定李雅普诺夫函数的期望下降量，从而在任意采样下实现收敛性分析。
采用类似动量的更新策略，结合序列 $\theta_k$，以实现加速收敛速率。
推导出一种修改后李雅普诺夫函数期望值的递推关系，用于跟踪向最优解的进展。
通过分析两种 $\theta_k$ 的选择（常数和自适应，后者对 $O(1/k^2)$ 速率最优）下的递推关系，建立收敛边界。

实验结果

研究问题

RQ1能否为在任意采样分布下的坐标下降方法建立统一的收敛性分析？
RQ2采样分布的选择（包括重要性采样）如何影响坐标下降算法的收敛速率？
RQ3在任意采样下（包括并行和分布式设置），能否实现加速收敛速率（$O(1/k^2)$）？
RQ4为确保在复合凸优化中任意采样下的收敛性，所需的最小技术假设是什么？
RQ5如何在不牺牲收敛边界紧致性或通用性的情况下简化分析？

主要发现

在任意采样下，ALPHA 对非强凸问题实现了 $O(1/k^2)$ 的收敛速率，与已知最佳加速速率一致。
复杂度分析统一并改进了现有针对串行、并行、分布式和加速变体的边界。
当 $\theta_k = \theta_0$ 为常数时，期望次优性以 $O(1/(\theta_0 k))$ 的速率衰减，与已知的非加速速率一致。
当 $\theta_k$ 自适应时，期望次优性以 $O(1/(\theta_0 k + 2)^2)$ 的速率衰减，实现了最优加速速率。
该方法支持重要性采样而不会损失收敛保证，从而可实现对曲率较高坐标的更快收敛。
分析过程得到简化并统一，使其更易理解，同时在多种采样方案下保持边界紧致性和通用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。