Skip to main content
QUICK REVIEW

[論文レビュー] Inexact Non-Convex Newton-Type Methods

Zhewei Yao, Peng Xu|arXiv (Cornell University)|Feb 20, 2018
Stochastic Gradient Optimization Techniques参考文献 34被引用数 29
ひとこと要約

本稿では、勾配、ヘッセ行列、および部分問題の解を近似しながらも、最適な反復複雑性を維持する不正確な信頼領域(TR)および適応的立方 regularization(ARC)アルゴリズムを提案する。やや弱い近似条件のもとで、不正確なTRは $Ó(\max\{\epsilon_g^{-2}\epsilon_H^{-1}, \epsilon_H^{-3}\})$ の複雑性を達成し、不正確なARCはより強い条件のもとで最適な複雑性を回復する。実装上、未知の問題パラメータに依存しない。

ABSTRACT

For solving large-scale non-convex problems, we propose inexact variants of trust region and adaptive cubic regularization methods, which, to increase efficiency, incorporate various approximations. In particular, in addition to approximate sub-problem solves, both the Hessian and the gradient are suitably approximated. Using rather mild conditions on such approximations, we show that our proposed inexact methods achieve similar optimal worst-case iteration complexities as the exact counterparts. Our proposed algorithms, and their respective theoretical analysis, do not require knowledge of any unknowable problem-related quantities, and hence are easily implementable in practice. In the context of finite-sum problems, we then explore randomized sub-sampling methods as ways to construct the gradient and Hessian approximations and examine the empirical performance of our algorithms on some real datasets.

研究の動機と目的

  • リーマン・リプシッツ定数などの未知の問題定数の知識を必要とする従来の不正確ニュートン法の実用的制限を解消すること。
  • ハードに推定できないパラメータに依存しない、近似的な勾配、ヘッセ行列、および部分問題の解を用いる不正確なTRおよびARCアルゴリズムの開発。
  • 不正確なバージョンに対し理論的に最適な最悪ケース反復複雑性を保証するとともに、実装可能性を確保すること。
  • 実験的に、提案手法が従来の不正確手法よりもハイパーパramータの選択に対してよりロバストであることを示すこと。
  • 大規模な非凸最適化における理論的最適性と実用的効率のギャップを埋めること。

提案手法

  • 近似的な勾配、ヘッセ行列、および部分問題の近似解を用いるアルゴリズム1(不正確なTR)を提案し、やや弱い近似条件の下での収束解析を実施。
  • 勾配、ヘッセ行列、および部分問題の解における類似の不正確性を有するアルゴリズム2(不正確なARC)を提案し、より強い条件のもとで最適な複雑性を達成。
  • 問題固有の定数の知識を必要とせず、勾配、ヘッセ行列、および部分問題の解における誤差を制御する近似条件(条件1〜4および5〜6)を導入。
  • 計算コストを削減するために、部分問題の近似解法として共役勾配(CG-Steihaug)および一般化ランチョス法を用いる。
  • 実装にあたって、問題関連の未知の定数(例:リーマン・リプシッツ定数)を必要としないようにアルゴリズムを設計。
  • 勾配、ヘッセ行列、および部分問題の解における近似誤差を慎重にバウンディングすることで、理論的収束保証を正確な類似手法と一致させる。

実験結果

リサーチクエスチョン

  • RQ1勾配、ヘッセ行列、および部分問題の解が近似的に得られる場合でも、不正確なTRおよびARCアルゴリズムは、それらの正確な対応物と同等の最適な反復複雑性を維持できるか?
  • RQ2勾配、ヘッセ行列、および部分問題の解における近似誤差を制御するのに十分な条件は何か?
  • RQ3リーマン・リプシッツ定数などの未知の問題パラメータに依存しない不正確なニュートン型手法は、実装可能か?
  • RQ4不正確なTRおよびARCの性能は、従来の不正確手法と比較して収束速度およびハイパーパramータへの感受性の面で優れているか?
  • RQ5提案手法は、広範なハイパーパramータチューニングを要する従来の不正確手法よりも、実用的効率およびロバスト性に優れているか?

主な発見

  • 不正確なTRアルゴリズム(アルゴリズム1)は、やや弱い近似条件のもとで、最適な反復複雑性 $\mathcal{O}(\max\{\epsilon_g^{-2}\epsilon_H^{-1}, \epsilon_H^{-3}\})$ を達成する。
  • 不正確なARCアルゴリズム(アルゴリズム2)は、より強い条件のもとで最適な複雑性 $\mathcal{O}(\max\{\epsilon_g^{-3/2}, \epsilon_H^{-3}\})$ を達成し、既知の最良の理論的境界と一致する。
  • 実験的結果から、不正確なTRおよびARCはSubH TRに比べ3〜5倍、Full TRに比べ5〜10倍の前向き伝搬回数で収束しており、優れた計算効率を示している。
  • 不正確なARCは初期の立方正則化パラメータ $\sigma_0$ に対して非常にロバストである一方、SCR [47] は非常に感受性が高く、広範なハイパーパramータチューニングを要する。
  • 提案手法は、サブサンプルされた勾配およびヘッセ行列情報のもとでも、従来の不正確なバージョン(SCR (GD) や SCR (Lanczos))よりも収束速度および安定性の面で優れている。
  • 従来の手法が理論的解析のための仮定を必要とするのに対し、本手法は未知の問題定数の知識がなくても実装可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。