QUICK REVIEW

[論文レビュー] On the Inductive Bias of Neural Tangent Kernels

Alberto Bietti, Julien Mairal|arXiv (Cornell University)|May 28, 2019

Neural Networks and Applications参考文献 45被引用数 31

ひとこと要約

この論文は、過パラメータ化されたニューラルネットワークにおけるニューラルタングエント・カーネル（NTK）の帰納的バイアスを分析している。特に、ReLUベースの畳み込みアーキテクチャを対象としている。NTKマッピングがリプシッツ連続性を満たさないものの、入力の変形に対して安定性を示す弱いホルダー滑らかさの性質を満たしていることが示されている。さらに、NTKのRKHSは、望ましい固有値の減衰のおかげで、標準的なReLU関数クラスを上回る近似性能を示している。

ABSTRACT

State-of-the-art neural networks are heavily over-parameterized, making the optimization algorithm a crucial ingredient for learning predictive models with good generalization properties. A recent line of work has shown that in a certain over-parameterized regime, the learning dynamics of gradient descent are governed by a certain kernel obtained at initialization, called the neural tangent kernel. We study the inductive bias of learning in such a regime by analyzing this kernel and the corresponding function space (RKHS). In particular, we study smoothness, approximation, and stability properties of functions with finite norm, including stability to image deformations in the case of convolutional networks, and compare to other known kernels for similar architectures.

研究の動機と目的

過パラメータ化されたニューラルネットワークにおける勾配降下法の帰納的バイアスを、ニューラルタングエント・カーネル（NTK）を用いて理解すること。
ReLUベースの2層ネットワークおよび畳み込みネットワークにおけるNTKが誘導する関数空間（RKHS）の滑らかさおよび安定性の性質を特徴づけること。
NTKのRKHSの近似能力を、最後の層のみを学習した場合やガウス過程の極限から得られる関数クラスなど、ReLUネットワークに関連する他の関数クラスと比較すること。
任意のパッチ抽出およびプーリング操作を伴う畳み込みネットワークにおける階層的でツリー構造のカーネル特徴マップを導出すること。

提案手法

一般線形パッチ抽出およびプーリングを伴う畳み込みネットワークのNTKを、再帰的カーネル合成を用いて導出する。
層ごとのドット積カーネルおよび活性化関数に基づく階層的でツリー構造の特徴マップを用いて、カーネルマッピングを表現する。
ホルダー連続性を用いた滑らかさの分析により、カーネルマッピングがリプシッツ連続でないが、より弱いホルダー条件を満たしていることを示す。
球面調和関数の展開を用いて2層ReLU NTKのRKHSを特徴づけ、固有値の減衰率を分析する。
C++を用いた動的計画法により、画像入力に対する完全なNTKを計算し、RKHS距離の数値的評価を可能にする。
MNIST上で制御された変形（平行移動、微小な回転、滑らかなワープ）を用いた数値実験を行い、RKHSノルムにおける安定性を評価する。

実験結果

リサーチクエスチョン

RQ1ReLU畳み込みネットワークにおけるNTKマッピングは、カーネル法における変形安定性に必要な既知のリプシッツ連続性を満たすか？
RQ2NTKカーネルマッピングの滑らかさクラス（例：ホルダー、リプシッツ）は何か？そして、入力の変形に対する安定性にどのように影響するか？
RQ3NTKのRKHSの近似性能は、最後の層のみを学習した場合やReLUネットワークのガウス過程の極限から得られる関数クラスと比較してどうなるか？
RQ42層ReLUケースにおけるNTKカーネルのスペクトル減衰行動は何か？そして、関数の正則性および近似速度とどのように関係するか？
RQ5NTKの階層的構造を、各層におけるカーネル特徴マップを用いて再帰的に表現できるか？

主な発見

ReLUネットワークにおけるNTKマッピングはリプシッツ連続でないが、1未満の指数をもつホルダー滑らかさ条件を満たしている。
リプシッツ連続性に欠けるにもかかわらず、ホルダー性質のおかげでNTKマッピングは入力の変形に対して安定であり、その定量的保証がホルダー性から導出されている。
2層ReLU NTKのRKHSは、標準的なReLU関数クラスよりも固有値の減衰が速く、リプシッツ関数に対する近似性能が優れていることを示している。
NTKの近似性能は、最後の層のみを学習した場合やReLUネットワークのガウス過程の極限から得られる関数クラスを上回っている。
数値実験により、他のカーネルと比較してNTKのRKHSノルムが変形に対してよりゆっくりと増加することが確認され、理論的な安定性の主張を裏付けている。
NTKの階層的構造により、マルチスケール表現を捉えることができる再帰的でツリー構造のカーネル特徴マップが可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。