QUICK REVIEW

[論文レビュー] Second-Order Optimization for Non-Convex Machine Learning: An Empirical Study

Peng Xu, Farbod Roosta-Khorasani|arXiv (Cornell University)|Aug 25, 2017

Stochastic Gradient Optimization Techniques参考文献 54被引用数 35

ひとこと要約

本稿は、非凸機械学習問題におけるヘシアン情報を利用する2次最適化手法であるサブサンプル化された信頼領域（TR）法と適応的立方正則化（ARC）法の実験的評価を行う。これらの手法は、勾配上げたSGDと同等の計算効率を達成し、ハイパーパrameter設定に対して強く、鞍点や平坦領域からの脱出がうまくいく。その結果、反復回数を減らしても優れた一般化性能を達成する。

ABSTRACT

While first-order optimization methods such as stochastic gradient descent (SGD) are popular in machine learning (ML), they come with well-known deficiencies, including relatively-slow convergence, sensitivity to the settings of hyper-parameters such as learning rate, stagnation at high training errors, and difficulty in escaping flat regions and saddle points. These issues are particularly acute in highly non-convex settings such as those arising in neural networks. Motivated by this, there has been recent interest in second-order methods that aim to alleviate these shortcomings by capturing curvature information. In this paper, we report detailed empirical evaluations of a class of Newton-type methods, namely sub-sampled variants of trust region (TR) and adaptive regularization with cubics (ARC) algorithms, for non-convex ML problems. In doing so, we demonstrate that these methods not only can be computationally competitive with hand-tuned SGD with momentum, obtaining comparable or better generalization performance, but also they are highly robust to hyper-parameter settings. Further, in contrast to SGD with momentum, we show that the manner in which these Newton-type methods employ curvature information allows them to seamlessly escape flat regions and saddle points.

研究の動機と目的

サブサンプル化されたニュートン型手法（具体的には信頼領域（TR）法と適応的立方正則化（ARC）法）が、非凸機械学習設定において実用的にどの程度の性能を示すかを評価すること。
SGD with momentum などの一次最適化手法の主な限界、すなわち収束が遅い、学習率に敏感であること、高い損失で停滞すること、鞍点からの脱出が難しいことに対処すること。
ヘシアン近似を用いて曲率情報を組み込むことで、深層学習や非線形最小二乗問題において、計算コストの面でも競争力を持ち、ロバストネスおよび一般化性能の面でも向上が得られるかどうかを調査すること。

提案手法

TRおよびARCアルゴリズムにおけるヘシアン行列の近似に、確率的サブサンプリングを採用し、1反復あたりのコストを低減しながら収束性を維持する。
信頼領域手法は、信頼領域制約を伴う二次モデルの部分問題を解き、目的関数の十分な減少を保証する。
適応的立方正則化（ARC）は、立方モデルと正則化パラメータを用い、モデルと実際の関数減少の一致度に基づいて正則化パラメータを調整する。
ヘシアン近似は、精度と計算コストのバランスを取るために、確率的サブサンプルヘシアン行列を用いて計算する。
手法は、深層多層パーセプトロンおよび非線形最小二乗（NLS）問題に対して評価され、ランダムおよび不良な初期化の両方の状況を含む。
実世界のデータセットと制御されたハイパーパrameter設定を用いて、SGD with momentum および L-BFGS やガウス＝ニュートン（GN）などの他の2次最適化手法と比較する。

実験結果

リサーチクエスチョン

RQ1サブサンプル化TRおよびARC手法は、非凸機械学習問題において、手動でチューニングされたSGD with momentum と同等の計算効率を達成できるか？
RQ2ニュートン型手法の性能は、ハイパーパrameter設定に強く、特に一次手法と比較して学習率に敏感であるSGD with momentum と比べて、どの程度ロバストであるか？
RQ32次最適化手法は、SGD with momentum がしばしば停滞する鞍点や平坦領域から効果的に脱出できるか？
RQ4ヘシアンに基づく曲率情報は、一般化性能および収束速度をどの程度向上させるか？
RQ5非一様サブサンプリングは、一様サブサンプリングと比較して、2次最適化手法の性能にどのような影響を与えるか？

主な発見

サブサンプル化TRおよびARC手法は、サブサンプリングによる1反復あたりの低コストと曲率の活用による高速収束のおかげで、手動でチューニングされたSGD with momentum と同等の計算効率を達成する。
TRおよびARCの性能は、ハイパーパrameterチューニングに対して非常にロバストであり、特にSGD with momentum が学習率設定に非常に敏感であるのと比べて顕著である。
ニュートン型手法は、すべてが1のベクトルのような不良な初期化からでも、鞍点や平坦領域からの脱出に成功する。一方、SGD with momentum はそのような初期化では進展が見られない。
2次最適化手法は、わずか数反復で良好な一般化性能を達成するため、通信コストの高い分散学習に特に適している。
非一様サブサンプリングは、一様サブサンプリングに比べて測定可能な性能向上をもたらし、特に実データセットにおける収束の加速に寄与する。
TRおよびARCは、理論的には優位性があるものの、実用的設定ではL-BFGS やガウス＝ニュートン（GN）よりも優れた性能を示す。これは、部分問題ソルバーの実装上の問題が原因である可能性が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。