Skip to main content
QUICK REVIEW

[論文レビュー] Global Convergence and Variance-Reduced Optimization for a Class of Nonconvex-Nonconcave Minimax Problems

Junchi Yang, Negar Kiyavash|arXiv (Cornell University)|Feb 22, 2020
Stochastic Gradient Optimization Techniques参考文献 31被引用数 33
ひとこと要約

この論文は、二面の Polyak-Łojasiewicz (PL) 条件の下で、交互勾配降下・上昇(AGDA)と確率的AGDAが非凸-非凹ミニマックス問題に対してグローバル収束することを示し、有限和設定でより速い収束速度を実証する分散削減型AGDA (VR-AGDA) を提案する。

ABSTRACT

Nonconvex minimax problems appear frequently in emerging machine learning applications, such as generative adversarial networks and adversarial learning. Simple algorithms such as the gradient descent ascent (GDA) are the common practice for solving these nonconvex games and receive lots of empirical success. Yet, it is known that these vanilla GDA algorithms with constant step size can potentially diverge even in the convex setting. In this work, we show that for a subclass of nonconvex-nonconcave objectives satisfying a so-called two-sided Polyak-Łojasiewicz inequality, the alternating gradient descent ascent (AGDA) algorithm converges globally at a linear rate and the stochastic AGDA achieves a sublinear rate. We further develop a variance reduced algorithm that attains a provably faster rate than AGDA when the problem has the finite-sum structure.

研究の動機と目的

  • 非凸-非凹ミニマックス問題におけるグローバル収束を、凸-凹仮定なしで動機づける。
  • AGDA と Stoc-AGDA のグローバル収束を保証する実用的な条件(二面 PL)を特定する。
  • 有限和ミニマックス問題に対して改善された収束率を持つ分散削減型AGDA (VR-AGDA) を開発・分析する。

提案手法

  • 独立した x および y の PL 定数を持つ minimax 目的関数に対して Polyak-Łojasiewicz (PL) を二面 PL 条件へ一般化する。
  • 交互更新を用いた AGDA および Stoc-AGDA を提案し、二面 PL の下で収束を分析する。
  • 最適性ギャップを組み合わせたポテンシャル関数を導入し、収束速度を証明する。
  • SVRG風の分散削減を交互更新と組み合わせて VR-AGDA を開発し、二面 PL の下で線形収束を証明する。
  • 有限和設定において VR-AGDA が AGDA よりも改善することを示す複雑性結果を提供する。

実験結果

リサーチクエスチョン

  • RQ1二面 PL 条件の下で、AGDA と Stoc-AGDA は非凸-非凹ミニマックス問題に対してグローバル収束を達成し得るか?
  • RQ2分散削減変体 (VR-AGDA) は、凸-凹構造を要求することなく有限和ミニマックス問題の収束速度を改善するか?

主な発見

アルゴリズム複雑さ
AGDAO(n κ^3 log(1/ε))
Stoc-AGDAO(κ^5 /(μ_2 ε))
VR-AGDA (n≤κ^9)O(n^{2/3} κ^3 log(1/ε))
VR-AGDA (n≥κ^9)O((n+κ^9) log(1/ε))
  • 二面 PL の下で、AGDA は適切なステップサイズでグローバル線形収束をサドル点へ達成する。
  • Stoc-AGDA は、確率的分散を考慮した減衰ステップサイズでサドル点へ亜線形収束(O(1/t))する。
  • VR-AGDA は n≥κ^9 のとき総複雑性 O((n+κ^9) log(1/ε))、または n≤κ^9 のとき O(n^{2/3} κ^3 log(1/ε))、AGDA より改善。
  • 二面 PL の下で三つの等価最適性基準(サドル点、グローバルミニマックス、停留点)が成立。
  • ロバスト最小二乗法と LQR imitation learning に関する実証結果は、特に高条件数のとき VR-AGDA の優れた性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。