Skip to main content
QUICK REVIEW

[論文レビュー] On the linearity of large non-linear models: when and why the tangent kernel is constant

Chaoyue Liu, Libin Zhu|arXiv (Cornell University)|Oct 2, 2020
Stochastic Gradient Optimization Techniques参考文献 20被引用数 33
ひとこと要約

本論文は、幅広い非線形ニューラルネットワークが幅が増加するにつれてパラメータ表現上線形になる理由を、ヘッセ行列のスケーリングにより説明し、接線核が一定に保たれる場合とそうでない場合を明らかにする。

ABSTRACT

The goal of this work is to shed light on the remarkable phenomenon of transition to linearity of certain neural networks as their width approaches infinity. We show that the transition to linearity of the model and, equivalently, constancy of the (neural) tangent kernel (NTK) result from the scaling properties of the norm of the Hessian matrix of the network as a function of the network width. We present a general framework for understanding the constancy of the tangent kernel via Hessian scaling applicable to the standard classes of neural networks. Our analysis provides a new perspective on the phenomenon of constant tangent kernel, which is different from the widely accepted "lazy training". Furthermore, we show that the transition to linearity is not a general property of wide neural networks and does not hold when the last layer of the network is non-linear. It is also not necessary for successful optimization by gradient descent.

研究の動機と目的

  • 幅広いニューラルネットワークにおける接線核の一定性とモデルの線形性の関係を明らかにする。
  • 幅が大きくなると線形性へ移行を促すヘッセ行列のスケーリング特性を特定する。
  • 接線核が一定に保たれる条件と、一定にならない条件を確立する。
  • この現象を lazy training(怠惰な訓練)という語の記述と区別し、その限界を説明する。
  • ネットワークアーキテクチャがNTK挙動に与える影響について、理論的および実験的洞察を提供する。

提案手法

  • 接線核 K(w) = ∇w f(w; x)^T ∇w f(w; z) を定義し分析し、線形性との関係を明らかにする。
  • f が w に対して線形であることと接線核が一定であることは「必要十分」であることを示す(命題 2.2)。
  • 小さなヘッセ行列ノルムを介してほぼ一定の接線核を得る十分条件を導出する(命題 2.3)。
  • ヘッセ行列のノルムを層ごとの導関数の無限大ノルムおよび高階テンソルの(2,1,1)-ノルムと結びつける一般的なヘッセスケーリングの枠組みを開発する。
  • 深層ネットワークのヘッセ行列を、部分導関数の無限大ノルムと出力層からの 1/√m の因子によって制御できることを示す境界を、定理 3.1 として証明する。
  • 接線核の非定常性は最終層が非線形である場合やボトルネックが挿入された場合に生じうることを実証し、最適化への影響を論じる。

実験結果

リサーチクエスチョン

  • RQ1ネットワークの幅が拡大するにつれて接線核が一定に保たれる条件は何か。
  • RQ2ヘッセ行列のスケーリングは、幅とアーキテクチャが線形性を生み出す過程にどのように関連するか。
  • RQ3線形性への移行は lazy training またはモデルのリスケーリングに依存するか、またそれが発生しないのはどんな場合か。
  • RQ4近似的な線形性とNTKの一定性を妨げるアーキテクチャ的特徴は何か、そしてそれが勾配法に基づく最適化にどう影響するか。

主な発見

  • 接線核は、モデルがパラメータにおいて線形である場合に限り一定である。
  • 出力層が線形のネットワークでは、ヘッセ行列のノルムは幅とともに縮小し、無限幅極限でヘッセ行列の消失と接線核の一定性を導く。
  • ヘッセ行列のスペクトルノルムは層ごとの導関数の無限大ノルムに支配される一方、勾配と接線核は2-ノルムに支配され、ノルムの不均衡が線形性を生み出す。
  • 接線核の一定性は広いネットワーク全般に普遍的ではなく、最終層が非線形である場合やボトルネックがある場合には失敗しうる。
  • 線形性がなくても、勾配降下法は広いネットワークを効率的に最適化できることがあり、NTKの一定性が成功する最適化の厳密な前提条件ではないことを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。