Skip to main content
QUICK REVIEW

[論文レビュー] Stochastic Variance-Reduced Cubic Regularized Newton Method

Dongruo Zhou, Pan Xu|arXiv (Cornell University)|Feb 13, 2018
Sparse and Compressive Sensing Techniques参考文献 35被引用数 23
ひとこと要約

本稿では、新しい半確率的勾配およびヘッセ行列推定器を導入することで、非凸最適化における第二階のオракル複雑度を向上させる、確率的バリアンス低減付き立方正則化ニュートン法(SVR Cubic)を提案する。この手法は、O(n + n⁴/⁵/ϵ³/²) の第二階オーケストラ呼び出しで (ϵ, √ϵ)-近似局所最小値に到達し、高精度な設定において既存の立方正則化およびサブサンプリング変種を上回る性能を示す。

ABSTRACT

We propose a stochastic variance-reduced cubic regularized Newton method for non-convex optimization. At the core of our algorithm is a novel semi-stochastic gradient along with a semi-stochastic Hessian, which are specifically designed for cubic regularization method. We show that our algorithm is guaranteed to converge to an $(ε,\sqrtε)$-approximately local minimum within $ ilde{O}(n^{4/5}/ε^{3/2})$ second-order oracle calls, which outperforms the state-of-the-art cubic regularization algorithms including subsampled cubic regularization. Our work also sheds light on the application of variance reduction technique to high-order non-convex optimization methods. Thorough experiments on various non-convex optimization problems support our theory.

研究の動機と目的

  • 非凸最適化における完全なヘッセ行列と勾配の計算コストが高いため、これを解決すること。
  • 特に高精度な設定において、立方正則化手法の第二階オラクル複雑度を向上させること。
  • 立方正則化に特化した高階非凸最適化へのバリアンス低減技術の適用を検討すること。
  • 立方部分問題の不正確な解法に対しても収束保証を確立しつつ、複雑度の上限を維持すること。

提案手法

  • 立方正則化部分問題に特化した新しい半確率的勾配およびヘッセ行列推定器を導入する。
  • ジョンソン&ザンプの研究(2013)にインspiredされたバリアンス低減技術を用いて、確率的ヘッセ行列および勾配推定の分散を低減する。
  • ミニバッチサンプリング戦略を採用し、近似ヘッセ行列および勾配を計算することで、完全なヘッセ行列評価の回数を削減する。
  • 外側のループで完全な勾配およびヘッセ行列推定を、内側のループでバリアンス低減付きの確率的推定を用いる二重ループ構造を設計する。
  • 各反復で立方部分問題を近似的に解くために、ランチョス型手法を適用する。
  • 理論的に (ϵ, √ϵ)-近似局所最小値への収束を保証し、改善されたオラクル複雑度を達成する。

実験結果

リサーチクエスチョン

  • RQ1バリアンス低減技術は、立方正則化のような第二階非凸最適化手法に効果的に適用可能か?
  • RQ2収束速度を損なわずに、立方正則化の第二階オラクル複雑度を低減できるか?
  • RQ3立方部分問題の不正確な解法に対しても、提案手法は収束保証を維持できるか?
  • RQ4オラクル複雑度および実行時間の観点から、提案手法はサブサンプリングおよび標準立方正則化と比較してどのように異なるか?

主な発見

  • 提案された SVR Cubic 手法は、O(n + n⁴/⁵/ϵ³/²) の第二階オラクル呼び出しで (ϵ, √ϵ)-近似局所最小値に到達し、標準立方正則化の O(n/ϵ³/²) 複雑度を上回る。
  • 元の立方正則化手法と比較して、完全なヘッセ行列および勾配評価回数を Ω(n¹/⁵) 倍削減する。
  • 十分な条件下では、立方部分問題を不正確に解いても、同じ収束速度とオラクル複雑度を維持する。
  • a9a、covtype、ijcnn1 データセットにおける実験結果から、SVR Cubic は収束速度および実行時間の観点で、Adaptive Cubic、Subsampled Cubic、Stochastic Cubic、Gradient Cubic を上回る。特に高精度な設定で顕著な優位性を示す。
  • 一部のケース(例:covtype)ではエポック数で Adaptive Cubic よりわずかに劣るが、CPU 時間の観点では依然として優れていることから、反復あたりの効率性が優れていることが示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。