QUICK REVIEW

[论文解读] Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime

Atsushi Nitanda, Taiji Suzuki|arXiv (Cornell University)|May 3, 2021

Stochastic Gradient Optimization Techniques参考文献 57被引用 11

一句话总结

该论文证明，在神经正切核（NTK）框架下，对于过参数化的两层ReLU神经网络，平均随机梯度下降（ASGD）可实现最小最大最优收敛速率。通过利用NTK诱导的再生核希尔伯特空间（RKHS）结构，作者证明了即使在目标函数通过特定条件下平滑ReLU网络近似时，也能实现全局收敛且收敛速率最优。

ABSTRACT

We analyze the convergence of the averaged stochastic gradient descent for overparameterized two-layer neural networks for regression problems. It was recently found that a neural tangent kernel (NTK) plays an important role in showing the global convergence of gradient-based methods under the NTK regime, where the learning dynamics for overparameterized neural networks can be almost characterized by that for the associated reproducing kernel Hilbert space (RKHS). However, there is still room for a convergence rate analysis in the NTK regime. In this study, we show that the averaged stochastic gradient descent can achieve the minimax optimal convergence rate, with the global convergence guarantee, by exploiting the complexities of the target function and the RKHS associated with the NTK. Moreover, we show that the target function specified by the NTK of a ReLU network can be learned at the optimal convergence rate through a smooth approximation of a ReLU network under certain conditions.

研究动机与目标

填补在NTK框架下对随机梯度下降收敛速率分析的空白。
建立在过参数化两层神经网络中，平均SGD实现全局收敛且收敛速率最优的理论结果。
刻画目标函数复杂度以及NTK诱导的RKHS在决定收敛速度中的作用。
证明在NTK框架下，ReLU网络的平滑近似可实现最优收敛速率。

提出的方法

分析在NTK框架下进行，其中过参数化网络的训练动态被近似为线性化动力学。
作者使用与NTK相关的RKHS范数来量化目标函数的复杂度以及模型的表示能力。
通过ASGD收敛到最小RKHS范数解的性质，结合ASGD与Tikhonov正则化在NTK极限下的等价性，分析ASGD。
通过将估计误差与目标函数的RKHS范数及NTK核的特征值衰减率关联，推导出收敛速率。
引入ReLU网络的平滑近似以处理非光滑性，从而可应用标准的NTK收敛分析工具。
通过将推导出的收敛速率与给定函数类的理论下界进行比较，证明了该速率的最小最大最优性。

实验结果

研究问题

RQ1在过参数化的两层ReLU网络中，ASGD是否能在NTK框架下实现最小最大最优收敛速率？
RQ2以RKHS范数衡量的目标函数复杂度，如何影响ASGD的收敛速率？
RQ3NTK诱导的RKHS在刻画过参数化网络泛化性能方面起到何种作用？
RQ4在NTK框架下，ReLU网络的平滑近似是否能保持最优收敛速率？
RQ5ASGD在NTK框架下的收敛速率是否为最小最大最优？若是，其成立条件为何？

主要发现

在NTK框架下，ASGD在回归任务中实现了最小最大最优收敛速率，与给定函数类的理论下界完全一致。
收敛速率取决于目标函数的RKHS范数以及NTK核的特征值衰减率，后者决定了学习的复杂度。
当ReLU网络的NTK所定义的目标函数在满足弱条件下进行平滑近似时，可实现最优学习速率。
分析结果表明，ASGD的泛化误差被NTK诱导的RKHS中目标函数的复杂度所限制。
通过证明在相同假设下，任何算法都无法实现更快的收敛速率，从而确立了该速率的最小最大最优性。
即使真实ReLU网络被平滑近似所替代，结果依然成立，表明该方法对非光滑激活函数具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。