QUICK REVIEW

[論文レビュー] Preconditioned Stochastic Gradient Langevin Dynamics for Deep Neural Networks

Chunyuan Li, Changyou Chen|arXiv (Cornell University)|Dec 23, 2015

Markov Chains and Monte Carlo Methods参考文献 39被引用数 175

ひとこと要約

本稿では、最適化からの適応的プレコンディショニングと確率的勾配MCMCを組み合わせることで、深層ニューラルネットワークにおけるサンプリング効率と一般化性能を向上させる、プレコンディショニング付き確率的勾配ランジュヴィアンダイナミクス（pSGLD）を提案する。曲率に配慮したプレコンディショニングを活用することで、pSGLDはより速い収束を達成し、前向き型および畳み込み型ネットワークの両方においてMNISTで最先端のテスト精度を達成し、標準的なSGLDおよびSGDベースの手法を上回る性能を示した。

ABSTRACT

Effective training of deep neural networks suffers from two main issues. The first is that the parameter spaces of these models exhibit pathological curvature. Recent methods address this problem by using adaptive preconditioning for Stochastic Gradient Descent (SGD). These methods improve convergence by adapting to the local geometry of parameter space. A second issue is overfitting, which is typically addressed by early stopping. However, recent work has demonstrated that Bayesian model averaging mitigates this problem. The posterior can be sampled by using Stochastic Gradient Langevin Dynamics (SGLD). However, the rapidly changing curvature renders default SGLD methods inefficient. Here, we propose combining adaptive preconditioners with SGLD. In support of this idea, we give theoretical properties on asymptotic convergence and predictive risk. We also provide empirical results for Logistic Regression, Feedforward Neural Nets, and Convolutional Neural Nets, demonstrating that our preconditioned SGLD method gives state-of-the-art performance on these models.

研究の動機と目的

深層ニューラルネットワーク学習における病理的曲率と過学習の二重の課題に対処すること。
非凸的かつ高次元のパrameter空間における確率的勾配ランジュヴィアンダイナミクス（SGLD）の効率性とサンプリング精度を向上させること。
スケーラブルなプレコンディショニング付きMCMCサンプリングを通じて、深層ネットワークにおける有効なベイジアン不確実性推定を可能にすること。
サンプルベースの不確実性を用いて、前向き型および畳み込み型ニューラルネットワークで最先端の性能を達成すること。

提案手法

SGLDを拡張し、RMSpropにインspiredされた適応的プレコンディショニング行列を組み込み、局所的な曲率情報に基づいてステップサイズを動的に調整する。
プレコンディショニングを確率的勾配に適用し、各パラメータ更新を勾配の履歴的分散に応じてスケーリングする。
漸近的な真の事後分布への収束を保証するため、ゆっくり減少するステップサイズスケジュールを用いる。
各反復で等方的ノイズを注入することで、パラメータ空間の探索と事後分布サンプリングを可能にする。
最小限の計算オーバーヘッドでオンラインでプレコンディショナーを更新し、スケーラビリティを維持する。
ハイパーパramータはグリッドサーチを用いて調整し、全結合型および畳み込み型ニューラルネットワークに適用する。

実験結果

リサーチクエスチョン

RQ1適応的プレコンディショニングは、病理的曲率を示す深層ニューラルネットワークにおけるSGLDの収束速度とサンプリング効率を向上させることができるか？
RQ2プレコンディショニング付きSGLDは、標準的なSGLDおよびSGDと比較して、テスト精度および一般化性能において優れているか？
RQ3曲率に配慮したプレコンディショニングを組み込むことで、より良い事後分布近似と予測リスクの向上が達成されるか？
RQ4pSGLDは、異なるネットワークアーキテクチャおよびモデルの深さの増加に対しても、性能向上を維持できるか？

主な発見

MNISTデータセットにおいて、pSGLDは標準的なCNNで0.45%のテスト誤差を達成し、SGD（0.82%）およびSGLD（0.71%）を著しく上回った。
1200-1200の前向き型ネットワークでは、pSGLDが最先端のテスト精度を達成し、事前分散が1から100に増加するにつれて性能が向上した。
pSGLDはSGLDおよびSGDと比較して、より速い収束とより安定した学習曲線を示し、推定子の分散が低減された。
ドロップアウトやBPBとは異なり、ネットワークサイズの増大に対しても一貫した改善が見られた。
実験的結果から、pSGLDが効果的にモデルの不確実性を捉えていることが確認され、事前分散が高くなると重み分布が広がることが観察された。
pSGLDの蒸留版は、完全なアンサンブル平均化を伴わずとも強力な性能を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。