Skip to main content
QUICK REVIEW

[论文解读] A Simple Stochastic Variance Reduced Algorithm with Fast Convergence Rates

Kaiwen Zhou, Fanhua Shang|arXiv (Cornell University)|Jun 28, 2018
Stochastic Gradient Optimization Techniques参考文献 12被引用 44
一句话总结

MiG 是一种简单的随机方差削减梯度方法,匹配最知名的收敛速率,具备高效的稀疏和异步变体,对于强凸问题达到 (n+√(κn)) log(1/ε),对于非强凸问题达到 1/T^2。

ABSTRACT

Recent years have witnessed exciting progress in the study of stochastic variance reduced gradient methods (e.g., SVRG, SAGA), their accelerated variants (e.g, Katyusha) and their extensions in many different settings (e.g., online, sparse, asynchronous, distributed). Among them, accelerated methods enjoy improved convergence rates but have complex coupling structures, which makes them hard to be extended to more settings (e.g., sparse and asynchronous) due to the existence of perturbation. In this paper, we introduce a simple stochastic variance reduced algorithm (MiG), which enjoys the best-known convergence rates for both strongly convex and non-strongly convex problems. Moreover, we also present its efficient sparse and asynchronous variants, and theoretically analyze its convergence rates in these settings. Finally, extensive experiments for various machine learning problems such as logistic regression are given to illustrate the practical improvement in both serial and asynchronous settings.

研究动机与目标

  • 激发对有限和凸优化中随机方差削减梯度方法的加速动力。
  • 设计一个简单算法(MiG),在内循环中仅跟踪一个变量向量。
  • 实现强凸问题的最佳已知 oracle 复杂度,以及非强凸问题的最优收敛速率。
  • 将 MiG 扩展到稀疏和异步设置,带来实际性能提升。
  • 提供实证证据,显示在串行和异步场景中的高效。

提出的方法

  • 引入在内循环只有单一变量的 MiG,以减少开销并便于扩展到稀疏/异步设置。
  • 使用梯度估计 tilde{∇} = ∇f_i_j(y_{j-1}) − ∇f_i_j(tilde{x}_{s-1}) + μ_s 其中 μ_s = ∇f(tilde{x}_{s-1})。
  • Compute y as a theta-weighted combination of x and tilde{x}, i.e., y_{j-1} = θ x^{s}_{j-1} + (1−θ) tilde{x}_{s-1}.
  • Update x^{s}_{j} via proximal step min_x { (1/2η)||x−x^{s}_{j-1}||^2 + ⟨tilde{∇}, x⟩ + g(x) }.
  • Aggregate iterates to form tilde{x}_s via a θ-weighted average of inner iterates.
  • Provide sparse and asynchronous variants using diagonal reweighting D to keep unbiased gradient estimates and maintain a one-vector update structure.

实验结果

研究问题

  • RQ1在保持仅更新一个耦合向量的同时,是否可以实现加速的随机方差削减方法?
  • RQ2MiG 能对强凸与非强凸问题实现相较于现有方法的 oracle 复杂度?
  • RQ3如何在不失去收敛性保证的前提下,将 MiG 扩展到稀疏和异步设置?
  • RQ4MiG 在密集、稀疏和异步场景下与最先进方法的实证表现如何?

主要发现

  • MiG 获得强凸问题的最佳已知 oracle 复杂度:O((n+√(κn)) log(1/ε))。
  • 对于非强凸问题,MiG NSC 实现最优 O(1/T^2) 速率。
  • MiG 在内循环中保持单向量结构,使稀疏和异步变体高效且具有实际性能提升。
  • 在实验中,MiG 在密集设置下与 Katyusha 和 SVRG 相匹配或超越,在稀疏/异步设置下对 KroMagnon 和 ASAGA 在相关数据集上具有优势。
  • MiG 不需要梯度表,简化实现并能方便地扩展到分布式或异步环境。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。