Skip to main content
QUICK REVIEW

[論文レビュー] On Lazy Training in Differentiable Programming

Lénaïc Chizat, Edouard Oyallon|arXiv (Cornell University)|Dec 19, 2018
Stochastic Gradient Optimization Techniques被引用数 287
ひとこと要約

この論文は、遅延学習が、過剰パラメータ化だけでなく、スケーリングの選択から生まれる挙動であると主張し、それがいつ発生するかを分析し、実務上の遅延学習が非遅延 regimesに比べてCNNの性能を低下させ得ることを示します。

ABSTRACT

In a series of recent theoretical works, it was shown that strongly over-parameterized neural networks trained with gradient-based methods could converge exponentially fast to zero training loss, with their parameters hardly varying. In this work, we show that this "lazy training" phenomenon is not specific to over-parameterized neural networks, and is due to a choice of scaling, often implicit, that makes the model behave as its linearization around the initialization, thus yielding a model equivalent to learning with positive-definite kernels. Through a theoretical analysis, we exhibit various situations where this phenomenon arises in non-convex optimization and we provide bounds on the distance between the lazy and linearized optimization paths. Our numerical experiments bring a critical note, as we observe that the performance of commonly used non-linear deep convolutional neural networks in computer vision degrades when trained in the lazy regime. This makes it unlikely that "lazy training" is behind the many successes of neural networks in difficult high dimensional tasks.

研究の動機と目的

  • 微分可能なプログラミングにおける遅延学習現象を動機づけ、定義する。
  • スケーリングと初期化を介して遅延学習が発生する一般的な基準を構築する。
  • スケールされたモデル下での勾配フローのダイナミクスを分析し、それを線形化と比較する。
  • 過剰パラメータ化および過小パラメータ化の設定において、遅延 regime の理論的境界と収束結果を提供する。
  • 合成データおよびCNN実験を通じて遅延学習の実用的影響を評価する。

提案手法

  • スケーリング因子 alpha を導入し、目的関数 F_alpha(w) = (1/alpha^2) R(alpha h(w)) を研究する。
  • 初期化周りの線形化モデル bar{h}(w) を定義し、F_alpha とその線形化 bar{F}_alpha を比較する。
  • 一般的な遅延学習基準 kappa_h(w0) = ||h(w0)-y*|| * ||D^2 h(w0)|| / ||Dh(w0)||^2 を導出し、遅延ダイナミクスと関連付ける。
  • 有限ホライズンの遅延学習境界を証明し、w_alpha(t) が w0 に近づき、alpha が大きくなるにつれて線形化パスに近さを保つ(Theorem 2.2)。
  • 二乗損失の定量的境界(Theorem 2.3)を提供し、過剰パラメータ化および過小パラメータ化の regime を分析する(Theorems 2.4 と 2.5)。
  • 解析を均質モデルと2層ネットワークへ拡張し、ランダム特徴域および平均場リミットと結びつける。

実験結果

リサーチクエスチョン

  • RQ1スケールされたモデルの勾配法による最適化が、初期化周りの線形化モデルを訓練することと同様に振る舞う条件は何か?
  • RQ2初期化、スケーリング、ネットワークアーキテクチャが遅延学習の出現にどのように影響するか?
  • RQ3遅延学習の収束特性と一般化への影響は、過剰パラメータ化および過小パラメータ化の regime でどうなるか?
  • RQ4実用的なニューラルネットワーク(例: CNNs)は、非遅延 regime と比較して遅延 regime で性能が低下するか?
  • RQ5遅延学習のダイナミクスと線形化ダイナミクスの時間的距離を境界づけることは可能か?

主な発見

  • 遅延学習は過剰パラメータ化されたネットワークだけでなく、初期化時に出力がほぼゼロに近い任意のパラメトリックモデルにおいても潜在し得る。これは暗黙のスケーリングによる。
  • alpha が大きい場合、F_alpha の訓練ダイナミクスは線形化モデル bar{F}_alpha のダイナミクスに近くなり、学習が実質的に線形になる。
  • 二乗損失の場合、穏やかな滑らかさの仮定の下で、非線形出力と線形化出力の距離は alpha の増大とともに縮小することを明示的な境界が示す。
  • 過剰パラメータ化遅延学習は、Jacobian Dh(w0) および損失の適切な条件の下でグローバルミニマイザへ収束する(Theorem 2.4)。
  • 不足パラメータ化遅延学習は大きな alpha のとき局所解へ収束し、有限次元の設定ではグローバル最適解から離れて停滞する可能性を示す(Theorem 2.5)。
  • 数値実験は、遅延 regime で訓練された CNN が非遅延訓練と比較して性能が劣る場合があり、病質化している場合もあることを示唆し、遅延学習が NN の成功を説明するという見解に対して挑戦的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。