[論文レビュー] Accelerated Zeroth-Order and First-Order Momentum Methods from Mini to Minimax Optimization
本稿では、勾配が利用できないブラックボックス非凸最適化において、動的勾配に基づく分散低減と一様スムージングを活用することで、より高いクエリ複雑度と勾配複雑度を達成する、加速されたゼロ次および一次のモーメンタム手法を提案する。ゼロ次手法のクエリ複雑度は $\tilde{O}(d^{3/4}\epsilon^{-3})$ であり、先行研究に比べて $O(d^{1/4})$ の要因で改善される。一次手法のクエリ複雑度は $\tilde{O}(\kappa_y^{4.5}\epsilon^{-3})$ であり、$O(\kappa_y^{1/2})$ の要因で改善され、大規模バッチを必要としない。
In the paper, we propose a class of accelerated zeroth-order and first-order momentum methods for both nonconvex mini-optimization and minimax-optimization. Specifically, we propose a new accelerated zeroth-order momentum (Acc-ZOM) method for black-box mini-optimization where only function values can be obtained. Moreover, we prove that our Acc-ZOM method achieves a lower query complexity of $ ilde{O}(d^{3/4}ε^{-3})$ for finding an $ε$-stationary point, which improves the best known result by a factor of $O(d^{1/4})$ where $d$ denotes the variable dimension. In particular, our Acc-ZOM does not need large batches required in the existing zeroth-order stochastic algorithms. Meanwhile, we propose an accelerated zeroth-order momentum descent ascent (Acc-ZOMDA) method for black-box minimax optimization, where only function values can be obtained. Our Acc-ZOMDA obtains a low query complexity of $ ilde{O}((d_1+d_2)^{3/4}κ_y^{4.5}ε^{-3})$ without requiring large batches for finding an $ε$-stationary point, where $d_1$ and $d_2$ denote variable dimensions and $κ_y$ is condition number. Moreover, we propose an accelerated first-order momentum descent ascent (Acc-MDA) method for minimax optimization, whose explicit gradients are accessible. Our Acc-MDA achieves a low gradient complexity of $ ilde{O}(κ_y^{4.5}ε^{-3})$ without requiring large batches for finding an $ε$-stationary point. In particular, our Acc-MDA can obtain a lower gradient complexity of $ ilde{O}(κ_y^{2.5}ε^{-3})$ with a batch size $O(κ_y^4)$, which improves the best known result by a factor of $O(κ_y^{1/2})$. Extensive experimental results on black-box adversarial attack to deep neural networks and poisoning attack to logistic regression demonstrate efficiency of our algorithms.
研究の動機と目的
- 既存のゼロ次手法がブラックボックス非凸最適化において高いクエリ複雑度を示す問題に対処すること、特に勾配が利用できない状況での対応。
- 関数値のみが利用可能なブラックボックス設定下でのミニマックス最適化のための効率的アルゴリズムの開発。
- 大規模ミニバッチを必要としないことで、分散低減型ゼロ次最適化手法の計算負荷を低減すること。
- ゼロ次および一次の両設定において、クエリおよび勾配複雑度の観点から、より高い収束速度を達成すること。
- 先行手法よりも弱い仮定(例えば、成分関数の滑らかさ)を仮定しつつ、低複雑度を維持する理論的保証を提供すること。
提案手法
- STORM/Hybrid-SGDにインspiredされた一様スムージングとモーメンタムに基づく分散低減を用いた、加速されたゼロ次モーメンタム(Acc-ZOM)手法の提案。
- 大規模バッチを必要とせず、関数値クエリの分散を低減するためのモーメンタムベースの再帰的勾配推定器を統合。
- 同様のスムージングとモーメンタム技術を用いて、ミニマックス問題向けの加速されたゼロ次モーメンタム降下・上昇(Acc-ZOMDA)手法を開発。
- 明示的な勾配が利用可能なミニマックス問題向けの加速された一次モーメンタム降下・上昇(Acc-MDA)手法を提案し、低勾配複雑度を達成。
- 関数値クエリとモーメンタム更新を組み合わせたハイブリッド戦略を採用し、収束の安定性とクエリ効率の向上を実現。
- 滑らかさと条件数の仮定に基づき、次元および条件数 $\kappa_y$ に明示的な依存関係を示す、クエリおよび勾配複雑度の理論的境界を導出。
実験結果
リサーチクエスチョン
- RQ1大規模バッチを必要とせず、モーメンタムに基づく分散低減をゼロ次最適化に効果的に適応することで、クエリ複雑度を低減できるか?
- RQ2非凸ブラックボックス最適化において、$\epsilon$-停留点を求めるために、加速されたゼロ次手法が達成可能な最適なクエリ複雑度は何か?
- RQ3提案された Acc-ZOMDA 法は、既存のゼロ次ミニマックスソルバーと比較して、クエリ複雑度および実用的効率性においてどのように異なるか?
- RQ4一次モーメンタム手法は、先行の分散低減アプローチに比べて、ミニマックス最適化においてより良い勾配複雑度を達成できるか?
- RQ5条件数 $\kappa_y$ は、ゼロ次および一次ミニマックスアルゴリズムの収束速度にどのような影響を与えるか?
主な発見
- Acc-ZOM 法は、$\epsilon$-停留点を求めるクエリ複雑度として $\tilde{O}(d^{3/4}\epsilon^{-3})$ を達成し、既存の最良結果に $O(d^{1/4})$ の要因で改善される。
- Acc-ZOMDA 法は、大規模バッチを必要とせず、ミニマックス問題のクエリ複雑度として $\tilde{O}((d_1 + d_2)^{3/4}\kappa_y^{4.5}\epsilon^{-3})$ を達成する。
- Acc-MDA 法は、一次ミニマックス最適化の勾配複雑度として $\tilde{O}(\kappa_y^{4.5}\epsilon^{-3})$ を達成し、既存の最良結果に $O(\kappa_y^{1/2})$ の要因で改善される。
- バッチサイズが $O(\kappa_y^4)$ の場合、Acc-MDA はさらに低い勾配複雑度 $\tilde{O}(\kappa_y^{2.5}\epsilon^{-3})$ を達成し、収束速度をさらに向上させる。
- 理論的解析により、提案手法は成分関数の滑らかさのみを仮定すればよく、ZO-AdaMM や ZO-Min-Max などの先行手法で用いられる仮定よりも弱い仮定で十分であることが示された。
- ブラックボックスの敵対的攻撃および汚染攻撃に対する広範な実験により、提案手法の効率性と実用的優位性が確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。