QUICK REVIEW

[论文解读] Beyond Linearization: On Quadratic and Higher-Order Approximation of Wide Neural Networks

Yu Bai, Jason D. Lee|arXiv (Cornell University)|Oct 3, 2019

Stochastic Gradient Optimization Techniques参考文献 55被引用 44

一句话总结

本文提出一个随机化训练框架，将过参数化的两层神经网络与二次及更高阶的 Taylor 展开项耦合，提升优化景观与在 NTK 之外的泛化。它提供理论和界限，展示在随机化下有利的景观、泛化和样本复杂度。

ABSTRACT

Recent theoretical work has established connections between over-parametrized neural networks and linearized models governed by he Neural Tangent Kernels (NTKs). NTK theory leads to concrete convergence and generalization results, yet the empirical performance of neural networks are observed to exceed their linearized models, suggesting insufficiency of this theory. Towards closing this gap, we investigate the training of over-parametrized neural networks that are beyond the NTK regime yet still governed by the Taylor expansion of the network. We bring forward the idea of \\emph{randomizing} the neural networks, which allows them to escape their NTK and couple with quadratic models. We show that the optimization landscape of randomized two-layer networks are nice and amenable to escaping-saddle algorithms. We prove concrete generalization and expressivity results on these randomized networks, which lead to sample complexity bounds (of learning certain simple functions) that match the NTK and can in addition be better by a dimension factor when mild distributional assumptions are present. We demonstrate that our randomization technique can be generalized systematically beyond the quadratic case, by using it to find networks that are coupled with higher-order terms in their Taylor series.

研究动机与目标

激发并解决 NTK 理论与经验神经网络性能之间的差距。
提出一种随机化技术，将学习从线性 NTK 范畴转移到更高阶的 Taylor 项。
通过二次模型为随机化网络建立优化景观保证。
推导随机化网络的泛化性和表示能力界限，并将样本复杂度与 NTK 进行比较。
证明该方法可扩展到更高阶（k-th order）Taylor 项，并讨论对学习简单函数类的影响。

提出的方法

围绕初始化对两层网络 f_W 进行 Taylor 展开，并识别超出 NTK 的高阶项。
引入随机符号对角化 W Σ，将线性化项与高阶项解耦，并分析由此得到的耦合二次模型 f^Q_W。
将随机化风险形式化为 L(W) = E_Σ[L̃(WΣ)]，并用 l2,4 范数进行正则化以控制权重增长。
证明随机化损失 L 具有良好景观：任意二阶驻点的训练损失均接近于最优二次模型的损失。
展示景观转移到正则化损失 L_λ，并给出优化保证，允许较大学习率和鞍点逃逸方法。
通过 Rademacher 复杂度和特征映射算子范数，为随机化二次模型提供泛化界限，并通过多项式型目标函数分析表示能力。

实验结果

研究问题

RQ1是否可以通过强调高阶 Taylor 项的随机化策略实现超越 NTK 的训练？
RQ2随机化是否使优化动力学与二次（或更高阶）模型耦合，而非线性 NTK，且得到的景观是否有利？
RQ3与 NTK 相比，使用随机化的高阶耦合模型进行学习在泛化性与表达能力方面的含义是什么？
RQ4该随机化方法是否可以扩展到更高阶（k-th order）项，并在学习简单函数类时实现可比或更好的样本复杂度？

主要发现

随机化将主导学习项从 NTK 转移到 Taylor 展开中的二次项（或更高阶项）。
随机化损失 L 产生的景观使得每个二阶驻点的训练损失都不明显高于最佳二次模型的损失，从而实现高效优化。
随机化二次数模型的泛化界限表现良好：界限随特征分布和宽度扩展，在某些情形下可优于 NTK。
在学习多项式及类似函数时，随机化二次模型的样本复杂度与 NTK 相匹配，在温和的分布假设下甚至可比维度因子更好。
该框架扩展到更高阶的 Taylor 项，表明有望研究更高阶的 NTK，并具有潜在相似的表达能力和有利的泛化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。