[论文解读] On Optimal Probabilities in Stochastic Coordinate Descent Methods
该论文提出NSync,一种非均匀随机坐标下降方法,通过非均匀概率选择坐标更新以加速收敛。通过优化这些概率和步长参数,NSync在收敛速度上优于均匀和完全并行的变体,理论分析表明:使用最优概率更新单个坐标,可优于一次性更新所有坐标。
We propose and analyze a new parallel coordinate descent method---`NSync---in which at each iteration a random subset of coordinates is updated, in parallel, allowing for the subsets to be chosen non-uniformly. We derive convergence rates under a strong convexity assumption, and comment on how to assign probabilities to the sets to optimize the bound. The complexity and practical performance of the method can outperform its uniform variant by an order of magnitude. Surprisingly, the strategy of updating a single randomly selected coordinate per iteration---with optimal probabilities---may require less iterations, both in theory and practice, than the strategy of updating all coordinates at every iteration.
研究动机与目标
- 开发一种非均匀并行坐标下降方法,以在收敛速度上优于均匀变体。
- 在强凸性和非均匀采样假设下,推导所提方法的收敛速率。
- 确定最小化收敛复杂度的坐标选择最优概率分布。
- 从理论上和实证上证明:使用最优概率更新单个坐标的方法,可优于一次性更新所有坐标的全量更新方法。
提出的方法
- NSync在每次迭代中以非均匀概率选择坐标子集进行并行更新,概率基于坐标的重要性分配。
- 该方法使用非均匀期望可分近似(ESO)条件,以界定更新后的期望函数增长。
- 在强凸性条件下,基于加权范数分析收敛性,得出迭代复杂度的上界。
- 通过最小化控制收敛速率的条件数Λ,推导出最优概率;在并行情况下,使用线性规划求解。
- 步长参数w_i被设定为w_i = θ(L_i + v_i),其中θ取决于采样结构和τ-良好采样特性。
- 该方法推广了先前的均匀和串行方法,支持对坐标子集的任意非均匀采样。
实验结果
研究问题
- RQ1在随机坐标下降中,对坐标子集采用非均匀采样是否能比均匀采样带来更快的收敛?
- RQ2是否可能一种每次迭代仅更新一个坐标且使用最优概率的方法,优于一次性更新所有坐标的全量更新方法?
- RQ3如何为坐标子集分配最优概率,以最小化并行随机坐标下降方法的收敛复杂度?
- RQ4NSync的收敛速率如何依赖于采样概率和步长参数的选择?
- RQ5在并行设置下,能否通过线性规划公式化,对概率分布进行理论最优优化?
主要发现
- 最优串行方法(每次迭代仅更新一个坐标,概率与(L_i + v_i)/v_i成正比)的收敛速度可快于完全并行方法,即使其更新的坐标更少。
- NSync的收敛复杂度由条件数Λ = max_i (w_i / (p_i v_i)) 决定,最小化Λ可实现最快收敛速率。
- 在串行情况下,最优概率向量为p_i^* = (L_i + v_i)/v_i / sum_j (L_j + v_j)/v_j,对应复杂度为Λ_OS = n + sum_i L_i/v_i。
- 在并行情况下,最优概率可通过含c+1个变量和2n+1个约束的线性规划求解,其中c为不同采样集合的数量。
- 实证结果表明,最优串行方法在实践中可优于均匀串行和完全并行变体,尤其当坐标Lipschitz常数差异显著时。
- 该方法对L_i和v_i的过度/低估具有鲁棒性,但性能对估计误差的敏感度随误差增大而提高。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。