Skip to main content
QUICK REVIEW

[論文レビュー] Traditional and Heavy-Tailed Self Regularization in Neural Network Models

Charles H. Martin, Michael W. Mahoney|arXiv (Cornell University)|Jan 24, 2019
Statistical Mechanics and Entropy参考文献 47被引用数 40
ひとこと要約

本論文はランダム行列理論を用いて、DNNの重み行列が暗黙的な自己正則化を示すことを明らかにし、バッチサイズなどのトレーニング調整によって影響を受ける、5+1の学習フェーズ分類(およびHeavy-Tailedバリアント)を明らかにする。

ABSTRACT

Random Matrix Theory (RMT) is applied to analyze the weight matrices of Deep Neural Networks (DNNs), including both production quality, pre-trained models such as AlexNet and Inception, and smaller models trained from scratch, such as LeNet5 and a miniature-AlexNet. Empirical and theoretical results clearly indicate that the empirical spectral density (ESD) of DNN layer matrices displays signatures of traditionally-regularized statistical models, even in the absence of exogenously specifying traditional forms of regularization, such as Dropout or Weight Norm constraints. Building on recent results in RMT, most notably its extension to Universality classes of Heavy-Tailed matrices, we develop a theory to identify \emph{5+1 Phases of Training}, corresponding to increasing amounts of \emph{Implicit Self-Regularization}. For smaller and/or older DNNs, this Implicit Self-Regularization is like traditional Tikhonov regularization, in that there is a `size scale' separating signal from noise. For state-of-the-art DNNs, however, we identify a novel form of \emph{Heavy-Tailed Self-Regularization}, similar to the self-organization seen in the statistical physics of disordered systems. This implicit Self-Regularization can depend strongly on the many knobs of the training process. By exploiting the generalization gap phenomena, we demonstrate that we can cause a small model to exhibit all 5+1 phases of training simply by changing the batch size.

研究の動機と目的

  • 深層学習における正則化が従来の機械学習の正則化とは異なる振る舞いをする理由を調査する。
  • 重み行列のスペクトル特性に基づく自己正則化の理論を構築する。
  • 特にバッチサイズなどのトレーニング調整が暗黙的正則化のレジームにどう影響するかを特徴づける。
  • 深層ネットワークのエネルギーランドスケープを監視・制御する実用的なフレームワークを提供する。

提案手法

  • ノイズと信号を分離するために、重み行列を W ≈ W_rand + Δsig とモデル化する。
  • 実測スペクトル密度(ESD)を分析するために、Marchenko-Pastur (MP) 理論とヘビーテールド MP 拡張を適用する。
  • ESD を分類するために、ユニバーサリティクラス(Gaussian、Spiked-Covariance、Heavy-Tailed)を同定する。
  • MP Soft Rank を λ+ / λmax と定義し、ノイズに対する信号強度を定量化する。
  • Random-like、Bleeding-out、Bulk+Spikes、Bulk-decay、Heavy-Tailed、Rank-collapse の 5+1 の学習フェーズの視覚的分類を開発する。
  • MiniAlexNet でトレーニング調整(特に batch size)を変えることによって相転移を実証する。

実験結果

リサーチクエスチョン

  • RQ1DNN の重み行列におけるどのスペクトル特性が暗黙的自己正則化を示しているのか?
  • RQ2MP 理論と Heavy-Tailed ユニバーサリティクラスは、ランダム風と強く正則化されたレジーム間の遷移をどのように説明するか?
  • RQ3バッチサイズなどのトレーニング調整を調整することで、小さなモデルが すべての 5+1 フェーズを示すことができるか?
  • RQ4明示的正則化と観測されたスペクトル相の関係は何か?
  • RQ5Heavy-Tailed 自己正則化は LeNet5 から Inception/AlexNet などのアーキテクチャに一般化するか?

主な発見

  • 古い/小さなモデルは、暗黙的な Tikhonov ライク正則化と一致する低ランクのスパイクを伴う MP ライクなスペクトルを示す。
  • 現代の大規模 DNN は Heavy-Tailed なスペクトル密度を示し、強い相関と Heavy-Tailed Self-Regularization を示している。
  • 5+1 の視覚的分類は、重みスペクトルが Random-like から Rank-collapse へ進化する様子を説明できる。
  • MP Soft Rank が自己正則化の強化とともに低下し、よりランダム風でなくなることを示す。
  • バッチサイズの変調は単一のモデルで全ての 5+1 フェーズを誘発でき、Generalization Gap 現象を例示する。
  • 明示的正則化はスパイクをさらに移動させ、スペクトルの複雑さを低下させ、理論と整合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。