QUICK REVIEW

[論文レビュー] Laplacian Smoothing Gradient Descent

Stanley Osher, Bao Wang|arXiv (Cornell University)|Jun 17, 2018

Stochastic Gradient Optimization Techniques参考文献 44被引用数 29

ひとこと要約

この論文は、標準的勾配降下法および確率的勾配降下法（SGD）の単純ながらも効果的な修正であるラプラシアンスムージング勾配降下法（LSGD）を紹介する。勾配に、1次元離散ラプラシアンから導かれる巡回行列の逆行列を乗算することで、LSGDは勾配の分散を低減し、より大きなステップサイズを可能にし、一般化性能を向上させ、収束性を向上させる。特に、条件数が悪い問題において顕著な効果を示す。また、グローバルミニマを保持し、損失関数の形状をより凸に近づける。

ABSTRACT

We propose a class of very simple modifications of gradient descent and stochastic gradient descent. We show that when applied to a large variety of machine learning problems, ranging from logistic regression to deep neural nets, the proposed surrogates can dramatically reduce the variance, allow to take a larger step size, and improve the generalization accuracy. The methods only involve multiplying the usual (stochastic) gradient by the inverse of a positive definitive matrix (which can be computed efficiently by FFT) with a low condition number coming from a one-dimensional discrete Laplacian or its high order generalizations. It also preserves the mean and increases the smallest component and decreases the largest component. The theory of Hamilton-Jacobi partial differential equations demonstrates that the implicit version of the new algorithm is almost the same as doing gradient descent on a new function which (i) has the same global minima as the original function and (ii) is ``more convex". Moreover, we show that optimization algorithms with these surrogates converge uniformly in the discrete Sobolev $H_σ^p$ sense and reduce the optimality gap for convex optimization problems. The code is available at: \url{https://github.com/BaoWangMath/LaplacianSmoothing-GradientDescent}

研究の動機と目的

標準的SGDの収束が遅く、分散が大きい問題を早期の学習エポック以降に解決する。
SGDにおける学習率の減少というボトルネックを克服し、より大きな定常ステップサイズを可能にする。
深層学習およびロジスティック回帰モデルにおける一般化性能と最適性ギャップの縮小を改善する。
ヘッセ行列の条件数が大きい悪条件問題において、勾配降下法の性能が著しく劣化する問題を緩和する。
グローバルミニマを保持しつつ、損失関数をより凸に近づけるための代理最適化ランドスケープを構築する手法を開発する。

提案手法

1次元離散ラプラシアンスムージング（LS）作用素を、巡回行列Aσを用いて、ミニバッチの勾配ベクトルに対してリアルタイムに適用する。
Aσ = I − σL（Lは離散ラプラシアン）の逆行列Aσ⁻¹を用い、高速フーリエ変換（FFT）を活用して効率的な勾配スムージングを実現する。
Aσ⁻¹が周波数領域で明確に表現可能であるという事実を活用し、離散フーリエ変換を用いて高速計算を実現する。
アルゴリズムを、θ_{k+1} = θ_k − α Aσ⁻¹ ∇f(θ_k; S_k) という修正勾配更新式として定式化する（S_kはミニバッチ）。
ラプラシアンスムージングを、バイハーモニックスムージングなど高階のスムージング作用素へ一般化し、より優れたスムージング特性を実現する。
この手法の暗黙的バージョンは、ハミルトニアン・ジャコビPDEと関連づけられ、グローバルミニマが同一のより凸な関数上での勾配降下が行われることを示す。

実験結果

リサーチクエスチョン

RQ1計算コストを最小限に抑えつつ、実時間でSGDの勾配分散を低減できるか？
RQ2収束性や一般化性能に悪影響を及げることなく、SGDでより大きなステップサイズを安全に使用できるか？
RQ3ラプラシアン作用素による勾配スムージングが、悪条件問題や非凸問題における最適化性能を向上させるか？
RQ4この手法がグローバルミニマを保持しつつ、損失関数のランドスケープをより凸に近づけることができるか？
RQ5収束速度および一般化精度の観点から、標準的SGDおよびモーメンタムベースの手法と比較して、本手法はどのように差をつけるか？

主な発見

LSGDは、実時間での勾配分散低減を実現し、定常ステップサイズを用いた場合に最適性ギャップの顕著な低減を達成する。
本手法は、標準的SGDよりも大きなステップサイズを可能にし、特に学習の後期段階において収束速度の向上を実現する。
LSGDは、ロジスティック回帰や深層ニューラルネットワークを含む多様なモデルにおいて、一般化精度の向上を示す。
理論的保証のもと、凸最適化問題において離散ソボレフ空間Hσpにおいて一様収束することが示された。
実験的に、LSGDは鋭い局所的ミニマを回避し、急勾配方向の振動を低減するため、より安定した学習ダイナミクスを実現する。
理論的解析により、LSGDの暗黙的バージョンが、グローバルミニマが同一のより凸な関数上での勾配降下と同等であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。