QUICK REVIEW

[论文解读] Why Do Deep Residual Networks Generalize Better than Deep Feedforward Networks? -- A Neural Tangent Kernel Perspective

Kaixuan Huang, Yuqing Wang|arXiv (Cornell University)|Feb 14, 2020

Domain Adaptation and Few-Shot Learning参考文献 39被引用 33

一句话总结

本文通过比较它们在无限宽度极限下的神经切线核（NTK），分析深度 ResNet 为什么比深度 FFN 泛化更好，并指出 FFN NTK 随深度变得退化，而 ResNet NTK 仍保留可学习能力。

ABSTRACT

Deep residual networks (ResNets) have demonstrated better generalization performance than deep feedforward networks (FFNets). However, the theory behind such a phenomenon is still largely unknown. This paper studies this fundamental problem in deep learning from a so-called "neural tangent kernel" perspective. Specifically, we first show that under proper conditions, as the width goes to infinity, training deep ResNets can be viewed as learning reproducing kernel functions with some kernel function. We then compare the kernel of deep ResNets with that of deep FFNets and discover that the class of functions induced by the kernel of FFNets is asymptotically not learnable, as the depth goes to infinity. In contrast, the class of functions induced by the kernel of ResNets does not exhibit such degeneracy. Our discovery partially justifies the advantages of deep ResNets over deep FFNets in generalization abilities. Numerical results are provided to support our claim.

研究动机与目标

促使理解深度 ResNets 与 FFNs 泛化差距的原因。
提出基于 NTK 的端到端训练深度网络分析。
在宽/深极限下比较深 FFN 与 ResNet 的极限 NTK。
提供将网络宽度/深度与 NTK 行为联系起来的非渐进界。

提出的方法

用随机高斯初始化对深度 FFN 和 ResNet 建模。
在无限宽度极限下推导两种架构的 GP 核和 NTK。
对 NTK 进行归一化，以研究深度增加时的极限行为。
证明和/或给出要点证明：FFN 的 NTK 随深度退化，而 ResNet 的 NTK 仍然是可学习的。
提供将有限宽度网络与其极限 NTK 连接起来的非渐近界。
通过对 MNIST 和 CIFAR-10 的核回归实验来支持理论主张。

实验结果

研究问题

RQ1当深度趋向无穷时，深度 FFN 与深度 ResNet 是否会诱发不同的极限 NTK？
RQ2FFN 极限 NTK 所诱导的函数类是否可学习？ResNet 极限 NTK 是否避免了这一点？
RQ3宽度与深度如何相互作用以决定两种架构的 NTK 和泛化属性？
RQ4基于 NTK 的核回归能否再现 FFN 与 ResNet 之间观察到的泛化差异？

主要发现

FFN 的 NTK 收敛到一个非信息性极限核，导致对未见数据泛化能力差。
ResNet 的 NTK 收敛到一个可学习的极限核，随着深度增加仍保留对输入之间的判别能力。
对于具有适当缩放的 ResNet，极限 NTK 可以与深度无关，有助于解释极深模型的持续泛化。
非渐近界表明在给定宽度条件下，有限宽度网络近似其极限 NTK。
在 MNIST 和 CIFAR-10 上的数值实验表明，基于 FFN 的核回归在深度增加时性能下降，而基于 ResNet 的回归在不同深度下保持准确性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。