QUICK REVIEW

[論文レビュー] On the training dynamics of deep networks with $L_2$ regularization

Aitor Lewkowycz, Guy Gur-Ari|arXiv (Cornell University)|Jun 15, 2020

Stochastic Gradient Optimization Techniques参考文献 23被引用数 25

ひとこと要約

この論文は、過パラメータ化された深層ネットワークにおいて、ピーク性能に達するまでの時間が $L_2$ 正則化係数 $\lambda$ と逆比例することを明らかにした。また、学習時間を $\lambda^{-1}$ にスケーリングすれば、ピーク性能は $\lambda$ に依存しなくなる。この知見に基づき、著者らは訓練速度と精度を向上させる動的 $L_2$ スケジュールである Auto $L_2$ と、最小限の計算量で最適な $\lambda$ を予測する手法を提案。CIFAR-10 および ImageNet で検証済み。

ABSTRACT

We study the role of $L_2$ regularization in deep learning, and uncover simple relations between the performance of the model, the $L_2$ coefficient, the learning rate, and the number of training steps. These empirical relations hold when the network is overparameterized. They can be used to predict the optimal regularization parameter of a given model. In addition, based on these observations we propose a dynamical schedule for the regularization parameter that improves performance and speeds up training. We test these proposals in modern image classification settings. Finally, we show that these empirical relations can be understood theoretically in the context of infinitely wide networks. We derive the gradient flow dynamics of such networks, and compare the role of $L_2$ regularization in this context with that of linear models.

研究の動機と目的

過パラメータ化された深層ネットワークにおける $L_2$ 正則化の役割を理解すること。ここでは、古典的なバイアス・バリアンスの直感が崩れる。
$L_2$ 正則化、学習率、訓練ステップ数、モデル性能の間の実験的スケーリング則を特定すること。
訓練効率とテスト精度を向上させる実用的ツール（$L_2$ の予測と動的スケジューリング）を開発すること。
無限幅ネットワーク解析と勾配フロー方程式を用いて、観察されたダイナミクスの理論的裏付けを与えること。

提案手法

ピーク性能が $t_* \approx c / \lambda$ に達することを経験的に観察。ここで $c$ はデータ、アーキテクチャ、ハイパーパramータに依存する。
単一の短い訓練実行から係数 $c$ を推定することで、最適な $\lambda$ を予測する手法を提案。
初期段階で高い $\lambda$ を使用し、学習中に徐々に減少させる動的スケジュールである Auto $L_2$ を導入。
無限に広いネットワークにおける勾配フローのダイナミクスを導出し、$\lambda$ によるカーネルの減少を示した。
MSE損失に対する微分方程式を解き、ピーク訓練時間の $\lambda^{-1}$ スケーリングを確認。
理論的分析により、$L_2$ 正則化は線形モデルとは異なり、深層ネットワークではトレーニング中にカーネルが減少することを示した。これにより、トレーニングダイナミクスの $\lambda$ 依存性が特徴的になる。

実験結果

リサーチクエスチョン

RQ1過パラメータ化された深層ネットワークにおいて、$L_2$ 正則化はピークテスト精度のタイミングと大きさにどのように影響するか？
RQ2単一の短い訓練実行から最適な $L_2$ 正則化係数を予測できるか？
RQ3学習中に減少する動的 $L_2$ スケジュールは、定数 $\lambda$ と比較して、速度と性能の両方を向上させるか？
RQ4無限に広いネットワークにおいて、$L_2$ 正則化は線形モデルと比較してトレーニングダイナミクスをどのように変化させるか？
RQ5深層ネットワークにおけるピーク性能時間の観察された $\lambda^{-1}$ スケーリングの理論的根拠は何か？

主な発見

ピーク性能に至るステップ数は $t_* \approx c / \lambda$ とスケーリングされ、vanilla SGD を用いる場合、学習率 $\eta$ に依存しない。
学習時間を $\lambda^{-1}$ にスケーリングした場合、$\lambda$ が小さい範囲でモデルの性能が飽和し、$\lambda$ に依存しなくなる。このとき、$\lambda = 0$ の場合よりも性能が高くなることがしばしば観察された。
提案された $L_2$ 予測手法は、単一の短い訓練実行のみで、チューニング済みの $\lambda$ 値と比較してテスト精度差が 0.4% 以内に収まった。
動的減少型 $L_2$ スケジュールである Auto $L_2$ は、チューニング済みの定数 $\lambda$ で訓練されたモデルと比較して、テスト精度と訓練速度の両方で優れた性能を示した。
無限に広いネットワークの理論的分析により、$L_2$ 正則化はニューラル接線カーネルを指数関数的に減少させ、結果としてピーク性能時間の $\lambda^{-1}$ スケーリングが生じることを示した。
線形モデルとは異なり、深層ネットワークでは $L_2$ 正則化の下でトレーニング中にカーネルが減少するため、トレーニングダイナミクスの $\lambda$ 依存性が顕著になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。