QUICK REVIEW

[論文レビュー] Generalization Bounds of Stochastic Gradient Descent for Wide and Deep Neural Networks

Yuan Cao, Quanquan Gu|arXiv (Cornell University)|May 30, 2019

Stochastic Gradient Optimization Techniques参考文献 41被引用数 93

ひとこと要約

本論文は、広く深い ReLU ネットワークを SGD で訓練すると、NTRF モデルによるデータ分類性の下で、ネットワーク幅に依存せず n^{-1/2} 的なレートで、ニューラルタンジェント・ランダムフィーチャーの参照クラスと一致する汎化境界を持つことを証明する。これが NTK 理論へとつながる。

ABSTRACT

We study the training and generalization of deep neural networks (DNNs) in the over-parameterized regime, where the network width (i.e., number of hidden nodes per layer) is much larger than the number of training data points. We show that, the expected $0$-$1$ loss of a wide enough ReLU network trained with stochastic gradient descent (SGD) and random initialization can be bounded by the training loss of a random feature model induced by the network gradient at initialization, which we call a neural tangent random feature (NTRF) model. For data distributions that can be classified by NTRF model with sufficiently small error, our result yields a generalization error bound in the order of $ ilde{\mathcal{O}}(n^{-1/2})$ that is independent of the network width. Our result is more general and sharper than many existing generalization error bounds for over-parameterized neural networks. In addition, we establish a strong connection between our generalization error bound and the neural tangent kernel (NTK) proposed in recent work.

研究の動機と目的

深層 ReLU ネットワークを SGD で訓練した過パラメータ化レジームにおける一般化を動機づけ、分析する。
データを明確化する指標としてニューラルタンジェントランダムフィーチャー（NTRF）参照クラスを導入する。
ネットワーク幅に依存しないアルゴリズム依存の一般化境界を提供する。
NTRF ベースの境界とニューラルタンジェントカーネル（NTK）理論との関係を確立する。
従来の二層モデルと比較してサンプル複雑性境界を改善する。

提案手法

幅 m、深さ L の全結合型 ReLU ネットワークとガウス初期化（He）を定義する。
初期化時のネットワーク勾配に基づくニューラルタンジェントランダムフィーチャー（NTRF）関数クラスを導入する。
初期付近でのほぼパラメータに線形に近い性質を用いて SGD の累積損失境界を証明する。
オンライン→バッチ変換により期待値の 0-1 エラー境界を導出し、それを NTRF クラスと関連づける。
NTK 行列 Θ^(L) を介して境界を NTK に結びつけ、NTK ベースの境界を含む系を補足定理として提示する。

実験結果

リサーチクエスチョン

RQ1SGD で訓練された広く深い ReLU ネットワークは、どの条件下で小さな一般化誤差を達成できるか？
RQ2NTRF 参照クラスによるデータ分類性は一般化境界にどのように影響するか？
RQ3深層ネットワークにおける SGD の一般化境界と NTK 理論との関係はどうなるか？
RQ4分析を二層を超えた深層アーキテクチャ（全パラメータを訓練）に拡張できるか？

主な発見

SGD で訓練された広い ReLU ネットワークの期待値 0-1 エラーは、NTRF 参照クラス上の訓練損失によって上界できる。
データが NTRF モデルで小さな誤差で分類可能な場合、境界は ~tilde{O}(n^{-1/2}) にスケールし、ネットワーク幅に依存しない。
境界は NTK に結びつき、カーネル様の表現 ~ tilde{O}(L * sqrt(y^T Θ^(L)^{-1} y / n)) を与える。
結果は二層ネットワークを超えて拡張され、従来のランダムフィーチャーベースの解析より鋭い境界をもたらす。
Corollary 3.10 は、幅に依存せず NTK 行列 Θ^(L) に依存する NTK ベースの境界を提供する。
この枠組みは、ターゲット関数が NTK によって誘導される RKHS ノルムを有界とする場合、SGD が良く一般化することを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。