QUICK REVIEW

[論文レビュー] Sub-Sampled Cubic Regularization for Non-Convex Optimization

Jonas Köhler|arXiv (Cornell University)|Jan 1, 2017

Sparse and Compressive Sensing Techniques参考文献 22被引用数 44

ひとこと要約

この論文は、非凸最適化のための立方体正則化に部分抽出を適用する新規手法であるSub-sampled Cubic Regularization (SCR)を提案する。これにより、計算コストを著しく削減しつつ、強力なグローバルおよびローカル収束保証を達成できる。濃度不等式を用いることで、SCRは高い確率でヘッシアンと勾配の近似が正確になることを保証し、深層学習のような非凸目的関数を有する大規模機械学習問題に実用的である。

ABSTRACT

We consider the minimization of non-convex functions that typically arise in machine learning. Specifically, we focus our attention on a variant of trust region methods known as cubic regularization. This approach is particularly attractive because it escapes strict saddle points and it provides stronger convergence guarantees than first- and second-order as well as classical trust region methods. However, it suffers from a high computational complexity that makes it impractical for large-scale learning. Here, we propose a novel method that uses sub-sampling to lower this computational cost. By the use of concentration inequalities we provide a sampling scheme that gives sufficiently accurate gradient and Hessian approximations to retain the strong global and local convergence guarantees of cubically regularized methods. To the best of our knowledge this is the first work that gives global convergence guarantees for a sub-sampled variant of cubic regularization on non-convex functions. Furthermore, we provide experimental results supporting our theory.

研究の動機と目的

大規模非凸最適化における立方体正則化の高い計算コスト、特に全ヘッシアン計算に起因する問題を解決すること。
非凸関数における立方体正則化の部分抽出バージョンに対して、これまで欠けていた理論的保証を提供すること。
立方体正則化の強力な収束特性（厳密な鞍点を回避し、グローバル収束を達成するなど）を維持しつつ、1イテレーションあたりのコストを削減すること。
勾配およびヘッシアンの近似精度を十分に保つことで収束保証を維持できるようなサンプリングスキームを開発すること。
実世界および合成データセットにおいて、実用的でスケーラブルな効率性とスケーラビリティを示し、勾配法（例：SGD）およびヘッシアン法（例：L-BFGS、ニュートン法）を上回る速度と精度を達成すること。

提案手法

立方体正則化における全ヘッシアンと勾配の近似に部分抽出戦略を導入し、計算コストをO(nd²)からO(ns²)に削減（s ≪ n）。
濃度不等式を用いて、近似ヘッシアンが誤差条件∥(Bk − Hk)sk∥ ≤ C∥sk∥²を高い確率で満たすようなサンプリングスキームを導出する。
不正確な勾配を許容する収束解析を拡張し、部分抽出下でも立方体正則化のグローバルおよびローカル収束保証が保たれることを証明する。
ヘッシアンを明示的にアクセスせずに、Krylov部分空間法に基づくランチョス法を用いて立方体モデルを近似的に解く。これにより、効率性を維持する。
初期段階でデータの5%から開始し、適応的に増加させる動的サンプリングサイズ戦略を導入する。
部分抽出立方体モデルを信頼領域フレームワークに統合し、目的関数の十分な減少を保証するバックトラッキングラインサーチを用いる。

実験結果

リサーチクエスチョン

RQ1部分抽出を立方体正則化に適用することで、非凸関数におけるグローバル収束保証を損なわず、計算コストを削減できるか？
RQ2部分抽出ヘッシアンと勾配が、正確に元の立方体正則化の収束特性を維持できるだけの精度を持つようなサンプリングスキームは何か？
RQ3提案手法は、部分抽出下でも厳密な鞍点を回避でき、2階停留点に収束する能力を保持しているか？
RQ4勾配法（例：SGD）およびヘッシアン法（例：L-BFGS、ニュートン法）と比較して、収束速度と精度の面で、部分抽出立方体正則化の性能はどの程度か？
RQ5ロジスティック回帰や多項ロジスティック回帰のような高次元で非凸な目的関数を有する大規模機械学習問題に、この手法は効果的にスケーリングできるか？

主な発見

提案された部分抽出スキームにより、近似ヘッシアンが要求される誤差条件∥(Bk − Hk)sk∥ ≤ C∥sk∥²を高い確率で満たすことが保証され、理論的収束保証が可能になる。
SCRは、O(ϵ⁻³/²)イテレーションで∥∇f(xk)∥ ≤ ϵにグローバル収束し、O(ϵ⁻³)イテレーションで近似的な非負の曲率に収束する。これは、正確な立方体正則化の最悪ケース複雑度と一致する。
HIGGSデータセット（1100万サンプル）において、SCRは標準L-BFGSに比べ3倍速く、SGDに比べ5倍速く、所定の部分最適性閾値に到達した。
MNISTおよびCIFARにおける多項ロジスティック回帰において、SCRは10時間未満で高精度解（勾配ノルム < 1e-8）に到達し、最終的な精度でBFGSおよびニュートン法を上回った。
次元数に伴うスケーリングは良好に維持された：d = 10,000の合成データセットにおいて、SCRは安定した収束を示したが、標準ニュートン法はメモリおよび計算制限により失敗した。
動的サンプリングサイズ（初期5%）の使用により、SCRは精度と速度のバランスを取ることができ、全バッチ手法よりも初期段階の進捗が速く、収束を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。