QUICK REVIEW

[論文レビュー] A Note on Lazy Training in Supervised Differentiable Programming

Lénaïc Chizat, Francis Bach|arXiv (Cornell University)|Dec 5, 2018

Machine Learning and ELM被引用数 87

ひとこと要約

この論文は、過パラメータ化されたニューラルネットワークにおけるラージトレーニングが、初期値まわりでモデルを線形化するスケーリング選択のおかげで、本質的にカーネル回帰に帰着することを示している。過パラメータ化そのものではなく、初期化スケーリングがその要因である。著者らは、この現象が初期化スケーリングに起因することを示し、深層学習の高次元タスクにおける成功を説明するものである可能性は低いと主張する。

ABSTRACT

In a series of recent theoretical works, it has been shown that strongly over-parameterized neural networks trained with gradient-based methods could converge linearly to zero loss, with their parameters hardly varying. In this note, our goal is to exhibit the simple structure that is behind these results. In a simplified setting, we prove that lazy training essentially solves a kernel regression. We also show that this behavior is not so much due to over-parameterization than to a choice of scaling, often implicit, that allows to linearize the model around its initialization. These theoretical results complemented with simple numerical experiments make it seem unlikely that lazy training is behind the many successes of neural networks in high dimensional tasks.

研究の動機と目的

勾配ベースの学習における過パラメータ化されたニューラルネットワークの線形収束の背後にある構造的要因を特定すること。
過パラメータ化か重みスケーリングのどちらが、ラージトレーニング行動を可能にする主要因であるかを明確にすること。
簡略化された設定において、ラージトレーニングがカーネル回帰に等価であることを示すこと。
ラージトレーニングが高次元タスクにおける深層学習の成功を説明するものであるという仮定に疑問を呈すること。

提案手法

勾配ベースの最適化を用いた簡略化されたニューラルネットワーク設定の分析。
初期値まわりでモデルを線形化する重み初期化におけるスケーリング要因の導入。
訓練ダイナミクスがニューラルトランジェントカーネルを用いたカーネルリッジ回帰と数学的に等価であることを証明すること。
理論的分析を用いて、線形化が過パラメータ化ではなくスケーリングに起因することを示すこと。
理論的発見を検証するための最小限の数値実験の実施。
初期化スケーリングの効果を分離するために、異なるスケーリングレジームにおけるモデルの挙動を比較すること。

実験結果

リサーチクエスチョン

RQ1勾配学習における過パラメータ化されたニューラルネットワークの線形収束の背後にある構造的性質は何であるか？
RQ2過パラメータ化か重みスケーリングのどちらが、ラージトレーニング行動の主な駆動要因であるか？
RQ3簡略化された設定において、ラージトレーニングがどの程度カーネル回帰に帰着するか？
RQ4ラージトレーニングとカーネル手法の間の等価性を形式的に確立できるか？
RQ5なぜラージトレーニングは高次元タスクにおけるニューラルネットワークの成功を説明する可能性が低いのか？

主な発見

過パラメータ化されたネットワークにおけるラージトレーニングは、本質的に初期重みのスケーリングに起因し、初期値まわりでモデルを線形化するものである。
このレジームにおける訓練ダイナミクスは、ニューラルトランジェントカーネルを用いたカーネルリッジ回帰と数学的に等価である。
ゼロ損失への収束は、モデルの過パラメータ化のおかげではなく、初期化のスケーリングの選択のおかげで線形に発生する。
数値実験により、指定されたスケーリング下では、最小限の過パラメータ化でも線形化された挙動が保持されることを確認した。
カーネル回帰への等価性は、モデルの性能がカーネル手法によって制限され、高次元タスクにおける一般化能力が制限されることを示唆する。
結果から、ラージトレーニングは複雑な高次元学習問題における深層ニューラルネットワークの実証的成功の背後にあるメカニズムである可能性は低いと示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。