QUICK REVIEW

[論文レビュー] A Near-Optimal Algorithm for Stochastic Bilevel Optimization via Double-Momentum

Prashant Khanduri, Siliang Zeng|arXiv (Cornell University)|Feb 15, 2021

Stochastic Gradient Optimization Techniques被引用数 26

ひとこと要約

SUSTAIN は、強く凸な下位問題を持つ確率的ビレベル最適化のための単一ループ、モメンタム支援アルゴリズムであり、非凸な外部目的関数に対して O(ε^{-3/2}) の反復複雑度を達成し、高価な Hessian の逆行列計算を行うことなく単一レベル SGD のレートに匹敵します。

ABSTRACT

This paper proposes a new algorithm -- the \underline{S}ingle-timescale Do\underline{u}ble-momentum \underline{St}ochastic \underline{A}pprox\underline{i}matio\underline{n} (SUSTAIN) -- for tackling stochastic unconstrained bilevel optimization problems. We focus on bilevel problems where the lower level subproblem is strongly-convex and the upper level objective function is smooth. Unlike prior works which rely on \emph{two-timescale} or \emph{double loop} techniques, we design a stochastic momentum-assisted gradient estimator for both the upper and lower level updates. The latter allows us to control the error in the stochastic gradient updates due to inaccurate solution to both subproblems. If the upper objective function is smooth but possibly non-convex, we show that {\aname}~requires $\mathcal{O}(ε^{-3/2})$ iterations (each using ${\cal O}(1)$ samples) to find an $ε$-stationary solution. The $ε$-stationary solution is defined as the point whose squared norm of the gradient of the outer function is less than or equal to $ε$. The total number of stochastic gradient samples required for the upper and lower level objective functions matches the best-known complexity for single-level stochastic gradient algorithms. We also analyze the case when the upper level objective function is strongly-convex.

研究の動機と目的

確率的ビレベル最適化を動機づけ、下位問題が強く凸で上位目的が滑らかであることを扱う。
内側および外側の勾配を効率的に追跡するために二重モメントゥムを活用した単一ループアルゴリズムを開発する。
高価なヘッセ行列の反転を避けつつ、単一レベル問題に近い最適性複雑性を達成する。
非凸および強く凸の外部目的に対する理論的保証を提供し、計算のスケーリングの有利性を示す。

提案手法

SUSTAIN を、1スケールの単一ループ・ダブルモメンタム確率的近似アルゴリズムとして導入する。
lower-level gradient ∇_y g および outer gradient ∇ℓ のモーメントムベースの勾配推定を用い、内ループの明示的な解法を回避する。
Implicit function theorem に基づく実用的なバイアス付き勾配代替 ĥ∇f と、K 回のヘッセ行列反転なしの構成を用い、K における指数的なバイアス減衰を実現する。
更新則: y_{t+1} = y_t − β_t h_t^g および x_{t+1} = x_t − α_t h_t^f、ここで h_t^g および h_t^f は再帰的モーメント推定量である（式 (13) および (14)）。
勾配推定量をサンプルベースのヘッセ行列ベクトル積で構築する；バイアスを制御するために K = Θ(log T) を設定する（補題 2.1）。
勾配推定誤差と最適性ギャップを含むポテンシャル関数を用いて収束を証明し、ε-stationary 点に対する反復/サンプル複雑性を O(ε^{-3/2})、外部目的が強凸の場合は O(ε^{-1}) を達成する（定理 3.2、3.3）。

実験結果

リサーチクエスチョン

RQ1単一ループのビレベル確率的最適化器は、高価なヘッセ行列の反転を使わずにほぼ最適なサンプル複雑性を達成できるか？
RQ2内外の問題の勾配推定量をモーメントムで構築・安定化させ、収束を保証するにはどうするか？
RQ3標準の滑らかさ・強凸性仮定の下で、非凸および強凸の外部目的に対する反復とサンプルの複雑性はどのくらいか。
RQ4従来のビレベル法（BSA、stocBiO、TTSA、STABLE、SVRB）と理論（レート）および計算量（1回の反復あたりのコスト）の面で、SUSTAIN はどのように比較されるか？

主な発見

非凸の外部目的に対して、SUSTAIN は ε-stationary 点を見つけるための O(ε^{-3/2}) 回の反復を達成する（Definition 1.1）。
1 回の反復あたり O(1) サンプルと O(d_lo^2 log T) の反復コストを使用し、ヘッセ行列の反転を回避する。
外部目的が強凸の場合、ε-optimality に到達するための確率的勾配サンプル数は O(ε^{-1}) を達成する（定理 3.3）。
外部目的の勾配推定量は明示的なヘッセ行列の反転を必要とせず、リプシッツ性とモーメントを活用してバイアス/分散を界どる（補助定理 3.1）。
従来のビレベル法（BSA、stocBiO、TTSA、STABLE、SVRB）と比べて、SUSTAIN はサンプル複雑性を維持または向上させつつ、計算コストを削減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。