Skip to main content
QUICK REVIEW

[论文解读] A Near-Optimal Algorithm for Stochastic Bilevel Optimization via Double-Momentum

Prashant Khanduri, Siliang Zeng|arXiv (Cornell University)|Feb 15, 2021
Stochastic Gradient Optimization Techniques被引用 26
一句话总结

SUSTAIN 是一种单循环、采用动量的随机双层优化算法,底层为强凸性,在非凸外部目标下实现 O(ε^{-3/2}) 的迭代复杂度,并在无需代价高昂的 Hessian 逆算的情况下达到与单层 SGD 相同的速率。

ABSTRACT

This paper proposes a new algorithm -- the \underline{S}ingle-timescale Do\underline{u}ble-momentum \underline{St}ochastic \underline{A}pprox\underline{i}matio\underline{n} (SUSTAIN) -- for tackling stochastic unconstrained bilevel optimization problems. We focus on bilevel problems where the lower level subproblem is strongly-convex and the upper level objective function is smooth. Unlike prior works which rely on \emph{two-timescale} or \emph{double loop} techniques, we design a stochastic momentum-assisted gradient estimator for both the upper and lower level updates. The latter allows us to control the error in the stochastic gradient updates due to inaccurate solution to both subproblems. If the upper objective function is smooth but possibly non-convex, we show that {\aname}~requires $\mathcal{O}(ε^{-3/2})$ iterations (each using ${\cal O}(1)$ samples) to find an $ε$-stationary solution. The $ε$-stationary solution is defined as the point whose squared norm of the gradient of the outer function is less than or equal to $ε$. The total number of stochastic gradient samples required for the upper and lower level objective functions matches the best-known complexity for single-level stochastic gradient algorithms. We also analyze the case when the upper level objective function is strongly-convex.

研究动机与目标

  • 激发并解决下层问题强凸、上层目标光滑的随机双层优化问题。
  • 开发一个单循环算法,利用双重动量高效追踪内部和外部梯度。
  • 在避免昂贵的 Hessian 逆的同时,实现与单层问题相当的近似最优的随机复杂度。
  • 为非凸和强凸外部目标提供理论保证,并展示有利的计算尺度性。

提出的方法

  • 引入 SUSTAIN,一种单时间尺度、双重动量的随机近似算法。
  • 对下层梯度 ∇_y g 和外部梯度 ∇ℓ 使用基于动量的梯度估计,避免显式的内循环求解。
  • 使用基于隐函数定理的实际有偏梯度代理 ĥ∇f,以及一个在 K 步中无 Hessian 逆构造、偏差以指数衰减的构造。
  • 更新规则:y_{t+1} = y_t − β_t h_t^g 和 x_{t+1} = x_t − α_t h_t^f,其中 h_t^g 和 h_t^f 是递归动量估计量(方程式 (13) 与 (14))。
  • 使用基于样本的 Hessian-向量乘积构造梯度估计量;设 K = Θ(log T) 以控制偏差(引理 2.1)。
  • 通过包含梯度估计误差和最优性间隙的势函数证明收敛性;对 ε-驻点获得 O(ε^{-3/2}) 的迭代/样本复杂度(定理 3.2),在外部目标强凸时达到 O(ε^{-1})(定理 3.3)。

实验结果

研究问题

  • RQ1单循环的双层随机优化器是否能够在不进行昂贵 Hessian 逆运算的情况下实现近似最优的样本复杂度?
  • RQ2如何通过动量构建并稳定内部与外部问题的梯度估计量以确保收敛?
  • RQ3在标准光滑性/强凸性假设下,非凸与强凸外部目标的迭代与样本复杂度是多少?
  • RQ4在理论(收敛率)和计算(每次迭代成本)方面,SUSTAIN 与现有的双层方法相比如何?

主要发现

  • 对于非凸外部目标,SUSTAIN 在找到 ε-驻点(定义 1.1)方面实现 O(ε^{-3/2}) 次迭代。
  • 该方法在每次迭代使用 O(1) 个样本,且每次迭代成本为 O(d_lo^2 log T),避免了昂贵的 Hessian 逆运算。
  • 在外部目标强凸的设定下,SUSTAIN 使用 O(ε^{-1}) 次随机梯度样本达到 ε-最优性(定理 3.3)。
  • 外部目标的梯度估计不需要显式 Hessian 逆运算,利用 Lipschitz 性质和动量来界定偏差/方差(引理 3.1)。
  • 与现有的双层方法(BSA、stocBiO、TTSA、STABLE、SVRB)相比,SUSTAIN 在样本复杂度方面达到或超越,同时降低了计算成本。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。