Skip to main content
QUICK REVIEW

[論文レビュー] Disentangling feature and lazy learning in deep neural networks: an empirical study.

Mario Geiger, Stefano Spigler|arXiv (Cornell University)|Jan 1, 2019
Gaussian Processes and Bayesian Inference参考文献 14被引用数 11
ひとこと要約

この論文は、最後の層の重みのスケーリングを $\alpha / \sqrt{h}$ として変化させることで、深層ニューラルネットワークにおけるラージラーラーニングとフィーチャーラーニングの間の遷移を実験的に調査している。完全結合型および畳み込み型の両方の設定において、フィーチャーラーニングがラージラーラーニングを上回ることを示しており、幅 $h$ が大きくなると性能差が小さくなる。初期条件のゆらぎは $1/\sqrt{h}$ のスケーリングを示し、幅を大きくするかアンサンブル平均を取ることで性能向上が達成可能である。

ABSTRACT

Two distinct limits for deep learning as the net width $h o\infty$ have been proposed, depending on how the weights of the last layer scale with $h$. In the lazy-learning regime, the dynamics becomes linear in the weights and is described by a Neural Tangent Kernel $\Theta$. By contrast, in the feature-learning regime, the dynamics can be expressed in terms of the density distribution of the weights. Understanding which regime describes accurately practical architectures and which one leads to better performance remains a challenge. We answer these questions and produce new characterizations of these regimes for the MNIST data set, by considering deep nets $f$ whose last layer of weights scales as $\frac{\alpha}{\sqrt{h}}$ at initialization, where $\alpha$ is a parameter we vary. We performed systematic experiments on two setups (A) fully-connected Softplus momentum full batch and (B) convolutional ReLU momentum stochastic. We find that (1) $\alpha^*=\frac{1}{\sqrt{h}}$ separates the two regimes. (2) for (A) and (B) feature learning outperforms lazy learning, a difference in performance that decreases with $h$ and becomes hardly detectable asymptotically for (A) but is very significant for (B). (3) In both regimes, the fluctuations $\delta f$ induced by initial conditions on the learned function follow $\delta f\sim1/\sqrt{h}$, leading to a performance that increases with $h$. This improvement can be instead obtained at intermediate $h$ values by ensemble averaging different networks. (4) In the feature regime there exists a time scale $t_1\sim\alpha\sqrt{h}$, such that for $t\ll t_1$ the dynamics is linear. At $t\sim t_1$, the output has grown by a magnitude $\sqrt{h}$ and the changes of the tangent kernel $\|\Delta\Theta\|$ become significant. Ultimately, it follows $\|\Delta\Theta\|\sim(\sqrt{h}\alpha)^{-a}$ for ReLU and Softplus activation, with $a<2$ & $a o2$ when depth grows.

研究の動機と目的

  • 深層ネットワークにおけるラージラーニングとフィーチャーラーニングのレジームを分ける臨界スケーリング $\alpha^*$ を特定すること。
  • MNIST における異なるアーキテクチャ(完全結合型および畳み込み型)において、ラージラーニングとフィーチャーラーニングの一般化性能を比較すること。
  • 初期条件のゆらぎが学習された関数に与える影響を分析し、幅 $h$ がモデル性能に与える影響を検討すること。
  • 接線カーネル $\Theta$ の時間的変化およびその変化量 $\|\Delta\Theta\|$ を特徴レジームにおいて特徴づけること。

提案手法

  • 2つの設定での体系的実験:(A) モーメンタムとフルバッチ学習を用いた完全結合型ソフトプラス、および (B) モーメンタムと確率的学習を用いた畳み込み型ReLU。
  • 最後の層の初期重みスケーリングを $\alpha / \sqrt{h}$ として変化させ、ラージラーニングとフィーチャーラーニングのレジーム間の遷移を調査すること。
  • 学習時間に伴うネットワーク出力のダイナミクスおよびニューラル接線カーネル $\Theta$ の進化を分析すること。
  • 初期条件に対する学習関数の感度 $\delta f$ を測定し、幅 $h$ と関連付けること。
  • ネットワークが線形から非線形ダイナミクスに移行する時間スケール $t_1 \sim \alpha\sqrt{h}$ を導出すること。
  • ReLU および Softplus に対して、$\|\Delta\Theta\|$ の漸近的挙動を $\sim (\sqrt{h}\alpha)^{-a}$ として定量的に評価し、$a < 2$ であり、深さが増すと $a \to 2$ に近づくこと。

実験結果

リサーチクエスチョン

  • RQ1幅 $h$ が増加する深層ネットワークにおいて、ラージラーニングとフィーチャーラーニングのレジームを分ける $\alpha$ の値は何か?
  • RQ2異なるネットワークアーキテクチャおよび学習設定において、フィーチャーラーニングが一貫してラージラーニングを上回るのか?
  • RQ3初期条件による学習関数のゆらぎ $\delta f$ は、ネットワーク幅 $h$ に対してどのようにスケーリングされるか?
  • RQ4非線形ダイナミクスが特徴レジームで発現する時間スケール $t_1$ は何か?また、$\alpha$ と $h$ に依存するか?
  • RQ5接線カーネルの変化量 $\|\Delta\Theta\|$ は時間経過とともにどのように変化するか?その漸近的スケーリングは何か?

主な発見

  • 臨界スケーリング $\alpha^* = 1/\sqrt{h}$ が、ラージラーニングとフィーチャーラーニングのレジームを分けるものであり、線形から非線形ダイナミクスへの遷移点を示している。
  • 両方の設定(A)および(B)において、フィーチャーラーニングがラージラーニングを上回る。性能差は幅 $h$ が大きくなるに従い漸近的に小さくなり、畳み込み型設定(B)では依然として顕著な差が残る。
  • 両レジームにおいて初期条件のゆらぎ $\delta f$ は $1/\sqrt{h}$ に比例する。これは、幅を大きくすることで性能が向上することを示しており、中程度の幅でもアンサンブル平均によって同様の向上が達成可能である。
  • 非線形ダイナミクスの発現を示す時間スケール $t_1 \sim \alpha\sqrt{h}$ が存在し、これ以降、出力は $\sqrt{h}$ 倍に増加し、$\|\Delta\Theta\|$ も顕著になる。
  • ReLU および Softplus に対して、接線カーネルの変化量 $\|\Delta\Theta\|$ の大きさは、漸近的に $\sim (\sqrt{h}\alpha)^{-a}$ に比例する。ここで $a < 2$ であり、深さが増すと $a \to 2$ に近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。