[論文レビュー] Finite Versus Infinite Neural Networks: an Empirical Study
本論文は、アーキテクチャ間で finite-width neural networks とそれらの infinite-width カーネル対向(NNGP/NTK)を大規模に実証比較し、対応が崩れる時期と方法、両 regime を最適化する方法を明らかにする。
We perform a careful, thorough, and large scale empirical study of the correspondence between wide neural networks and kernel methods. By doing so, we resolve a variety of open questions related to the study of infinitely wide neural networks. Our experimental results include: kernel methods outperform fully-connected finite-width networks, but underperform convolutional finite width networks; neural network Gaussian process (NNGP) kernels frequently outperform neural tangent (NT) kernels; centered and ensembled finite networks have reduced posterior variance and behave more similarly to infinite networks; weight decay and the use of a large learning rate break the correspondence between finite and infinite networks; the NTK parameterization outperforms the standard parameterization for finite width networks; diagonal regularization of kernels acts similarly to early stopping; floating point precision limits kernel performance beyond a critical dataset size; regularized ZCA whitening improves accuracy; finite network performance depends non-monotonically on width in ways not captured by double descent phenomena; equivariance of CNNs is only beneficial for narrow networks far from the kernel regime. Our experiments additionally motivate an improved layer-wise scaling for weight decay which improves generalization in finite-width networks. Finally, we develop improved best practices for using NNGP and NT kernels for prediction, including a novel ensembling technique. Using these best practices we achieve state-of-the-art results on CIFAR-10 classification for kernels corresponding to each architecture class we consider.
研究の動機と目的
- 幅広いニューラルネットワークがアーキテクチャを問わずいつカーネル手法(NNGP/NTK)に収束するかを定量化する。
- 有限幅と無限幅の対応を維持するトレーニング手法と、それを壊す手法を特定する。
- 有限幅および無限幅モデルの性能向上のための実用的なベストプラクティスを開発する。
- データ前処理、アンサンブル、アーキテクチャの効果をカーネルと有限ネットワークの観点で探索する。
提案手法
- ReLU を用い、標準パラメータ化と NTK パラメータ化の両方を対象に、FCN および CNN アーキテクチャ(VEC、GAP 読み出し)を横断した系統的実験。
- 勾配降下法で訓練された有限幅ネットワークと、厳密な NNGP および NTK カーネルを計算・比較する。
- センタリング、学習率の大きさ、ウェイト減衰、アンサンブリング、ZCA 白色化、データ拡張などの介入を適用。
- 直接的なカーネル比較には MSE 損失を使用し、softmax-交差エントロピーの差異について注記。
- CIFAR-10 での性能を評価し、CIFAR-100 および Fashion-MNIST で頑健性チェックを行う。
実験結果
リサーチクエスチョン
- RQ1アーキテクチャを横断して、有限幅ネットワークは無限幅カーネル(NNGP/NTK)と精度でどう比較されるか?
- RQ2どのトレーニングの工夫が有限幅–無限幅の対応を維持または崩すのか?
- RQ3センタリング、アンサンブル、正則化、前処理といった実用的技術が両方の regime の性能をどう高めるか?
- RQ4データ拡張と前処理はカーネルと有限ネットワークの性能にどう影響するか?
- RQ5スケール時のカーネル手法に影響を与える制約(浮動小数点精度、条件付け、等変性)は何か?
主な発見
| アーキテクチャ | 手法 | NTK | NNGP |
|---|---|---|---|
| FC | ZCA Reg (this work) | 59.7 | 59.7 |
| FC | DA Ensemble (this work) | 61.5 | 62.4 |
| CNN-VEC | ZCA Reg (this work) | 69.8 | 69.4 |
| CNN-VEC | DA Ensemble (this work) | 70.5 | 73.2 |
| CNN-GAP | ZCA Reg (this work) | 83.2 | 83.5 |
| CNN-GAP | DA Ensemble (this work) | 83.7 (32 ens) | 84.8 (32 ens) |
- NNGP カーネルは、 diagonal 正則化を慎重に調整した場合、画像分類タスクで NTK カーネルを上回ることがある。
- 基本ケースの無限幅 FCN および CNN-VEC は有限幅の counterparts を上回ることがあり、ただし base case では CNN-GAP は劣ることがある。
- センタリングと有限ネットワークのアンサンブルは予測分散を低減し、性能面で有限モデルをカーネル手法に近づける。
- 大きい学習率と L2 正則化はカーネル–有限幅の対応を崩す可能性があり、アーキテクチャとパラメータ化に依存した効果を持つ。
- 層ごと正則化された L2 は NTK の有効ペナルティと一致させることにより、標準パラメータ化ネットワークの性能を向上させる。
- カーネルの対角正則化は早期停止を模倣できる; 最良の検証は多くの場合、早期停止と非ゼロの対角正則化とともに生じる。
- 浮動小数点精度は大規模データセットでカーネル性能を制限し、データセットサイズの閾値は固有値減衰(べき則の尾部)に依存する。
- 正則化された ZCA 白色化はアーキテクチャを問わず有限法とカーネル法の精度を向上させる。
- 等変性の利点は、カーネル領域から遠い狭いネットワークに限られ、広い領域では等変性の利点はほとんどない。
- カーネル予測子のアンサンブルは NNGP/NTK での効果的な拡張を可能にし、複数のアーキテクチャで CIFAR-10 カーネルの最先端結果を達成する。
- 適切な工夫を施した有限幅 CNN はカーネル手法を凌ぐことがある(例: CNN-GAP のアンサンブル)、一方で一部の FCN アンサンブルはギャップを完全には埋めない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。