QUICK REVIEW

[論文レビュー] Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime

Atsushi Nitanda, Taiji Suzuki|arXiv (Cornell University)|May 3, 2021

Stochastic Gradient Optimization Techniques参考文献 57被引用数 11

ひとこと要約

この論文は、過パラメータ化された2層ReLUニューラルネットワークがニューラルタングエントロピー・カーネル（NTK）の枠組みにおいて、平均化された確率的勾配降下法（ASGD）が最小最大最適収束レートを達成することを確立している。NTKによって誘導される再生核ヒルバート空間（RKHS）の構造を活用することで、著者らは、特定の条件下で滑らかなReLUネットワークによるターゲット関数の近似が可能な場合でさえも、グローバル収束と最適レートを証明している。

ABSTRACT

We analyze the convergence of the averaged stochastic gradient descent for overparameterized two-layer neural networks for regression problems. It was recently found that a neural tangent kernel (NTK) plays an important role in showing the global convergence of gradient-based methods under the NTK regime, where the learning dynamics for overparameterized neural networks can be almost characterized by that for the associated reproducing kernel Hilbert space (RKHS). However, there is still room for a convergence rate analysis in the NTK regime. In this study, we show that the averaged stochastic gradient descent can achieve the minimax optimal convergence rate, with the global convergence guarantee, by exploiting the complexities of the target function and the RKHS associated with the NTK. Moreover, we show that the target function specified by the NTK of a ReLU network can be learned at the optimal convergence rate through a smooth approximation of a ReLU network under certain conditions.

研究の動機と目的

NTK枠組みにおける確率的勾配降下法の収束レート解析におけるギャップを埋めること。
過パラメータ化された2層ニューラルネットワークにおける平均化されたSGDのグローバル収束と最適レートを確立すること。
ターゲット関数の複雑さとNTKによって誘導されるRKHSが収束速度に与える影響を特定すること。
滑らかな近似によるReLUネットワークが、NTKフレームワーク下で最適レートを達成できることを示すこと。

提案手法

解析は、過パラメータ化されたネットワークの学習ダイナミクスが線形化されたダイナミクスで近似されるNTK枠組み内で行われる。
著者らは、NTKに関連するRKHSノルムを用いて、ターゲット関数の複雑さとモデルの学習能力を定量化する。
平均化された確率的勾配降下法は、NTK極限におけるASGDとチホノフ正則化の等価性を活用して、最小RKHSノルム解への収束を分析する。
推定誤差をターゲット関数のRKHSノルムとNTKカーネルの固有値の減衰に結びつけることで、収束レートを導出する。
滑らかでない性質を扱うために、ReLUネットワークの滑らかな近似を導入し、標準的なNTK収束ツールの適用を可能にする。
導出されたレートを、与えられた関数クラスに対する理論的下界と比較することで、レートの最小最大最適性を確立する。

実験結果

リサーチクエスチョン

RQ1平均化された確率的勾配降下法は、過パラメータ化された2層ReLUネットワークがNTK枠組みにおいて最小最大最適収束レートに達することができるか？
RQ2ターゲット関数の複雑さ（RKHSノルムで測定）は、ASGDの収束速度にどのように影響するか？
RQ3NTKによって誘導されるRKHSは、過パラメータ化されたネットワークの一般化性能を特徴付ける上で果たす役割は何か？
RQ4ReLUネットワークの滑らかな近似は、NTKフレームワーク下でも最適収束レートを維持できるか？
RQ5NTK枠組み下でのASGDの収束レートは最小最大最適であり得るか？もしそうならば、どのような条件下で成立するか？

主な発見

平均化された確率的勾配降下法は、NTK枠組みにおける回帰問題で最小最大最適収束レートを達成し、関数クラスの理論的下界と一致する。
収束レートは、ターゲット関数のRKHSノルムとNTKカーネルの固有値の減衰に依存し、これが学習の複雑さを支配する。
ReLUネットワークのNTKによって定義されるターゲット関数は、滑らかな近似が一定の条件下で行われれば、最適レートで学習可能である。
解析により、ASGDの一般化誤差がNTKによって誘導されるRKHSにおけるターゲット関数の複雑さによって上限付けられることを確認した。
同じ仮定のもとで、いかなるアルゴリズムでもより速いレートを達成できないことを示すことで、レートの最小最大最適性を確立した。
真のReLUネットワークが滑らかな近似に置き換えられても、結果は成り立つため、非滑らかな活性化関数に対して頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。