QUICK REVIEW

[論文レビュー] On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

Nitish Shirish Keskar, Dheevatsa Mudigere|arXiv (Cornell University)|Sep 15, 2016

Stochastic Gradient Optimization Techniques参考文献 34被引用数 577

ひとこと要約

本論文は、大規模バッチの SGD が鋭い極小値に収束しやすく、一般化ギャップを生む一方、少規模バッチ法はより平坦な極小値を見つけることを示している。勾配ノイズは大規模バッチ法の探索を助け、ギャップを埋める可能性がある。

ABSTRACT

The stochastic gradient descent (SGD) method and its variants are algorithms of choice for many Deep Learning tasks. These methods operate in a small-batch regime wherein a fraction of the training data, say $32$-$512$ data points, is sampled to compute an approximation to the gradient. It has been observed in practice that when using a larger batch there is a degradation in the quality of the model, as measured by its ability to generalize. We investigate the cause for this generalization drop in the large-batch regime and present numerical evidence that supports the view that large-batch methods tend to converge to sharp minimizers of the training and testing functions - and as is well known, sharp minima lead to poorer generalization. In contrast, small-batch methods consistently converge to flat minimizers, and our experiments support a commonly held view that this is due to the inherent noise in the gradient estimation. We discuss several strategies to attempt to help large-batch methods eliminate this generalization gap.

研究の動機と目的

深層学習における SGD で大きなミニバッチを使用したときに観察される一般化ギャップを動機づけ、定量化する。
大規模バッチ法が鋭い極小値に収束するかどうか、そしてそれが一般化の劣化とどうrelatedするかを調査する。
複数のネットワークアーキテクチャに渡って、少バッチと大バッチのトレーニングで見つかるミニマイザを比較する。
一般化を損なうことなく大規模バッチ学習を改善するための潜在的な対策と実践的な洞察を提供する。

提案手法

SB（少バッチ）と LB（大バッチ）の訓練 regime を定義し、6つのネットワーク/データセット構成にわたって ADAM を用いて挙動を比較する。
近傍の摂動に基づく鋭さ/感度指標を用いてミニマイザを特徴づける。
SB と LB の解の間の直線に沿ったパラメトリックプロットを作成し、ミニマイザの鋭さを可視化する。
SB 探索が LB の結果に与える影響を検証するためのウォームスタート実験を行う。
バッチサイズの閾値とそれが一般化と鋭さに及ぼす影響を分析する。

実験結果

リサーチクエスチョン

RQ1大規模バッチ学習は一般化を劣化させる鋭いミニマイザにつながるか？
RQ2SB と LB のミニマイザは鋭さと局所的なランドスケープ構造の観点でどう異なるか？
RQ3SB 学習からの勾配ノイズは LB 法が鋭い盆地を抜け出し一般化を改善するのに役立つか？
RQ4LB 訓練に伴う一般化の低下を緩和する実践的な戦略は何か？

主な発見

LB 法は大きな正のヘッセ行列固有値を特徴とする鋭いミニマイザに収束し、一般化が低下する。
SB 法は小さな固有値が多く、より平坦なミニマイザに収束し、一般化が改善される。
パラメトリックおよび部分空間鋭さ分析は、複数のネットワークで LB のミニマイザが SB のミニマイザより顕著に鋭いことを示す。
ウォームスタート実験は、SB の探索が十分な SB 探索の後で LB を平坦なミニマイザに到達させ得ることを示している。
いくつかのネットワークで、閾値を超えるバッチサイズが LB の検証精度の劣化を招く。
データ拡張や対令訓練のような対策は LB の一般化をある程度改善するが、鋭い最小値を完全には排除しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。