QUICK REVIEW

[论文解读] Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks

Behnam Neyshabur, Zhiyuan Li|arXiv (Cornell University)|May 30, 2018

Adversarial Robustness in Machine Learning参考文献 19被引用 214

一句话总结

本文提出一个两层 ReLU 网络的按单元容量度量，该度量产生一个随隐藏单元数量减少的泛化界，解释了过参数化时泛化能力的提升。

ABSTRACT

Despite existing work on ensuring generalization of neural networks in terms of scale sensitive complexity measures, such as norms, margin and sharpness, these complexity measures do not offer an explanation of why neural networks generalize better with over-parametrization. In this work we suggest a novel complexity measure based on unit-wise capacities resulting in a tighter generalization bound for two layer ReLU networks. Our capacity bound correlates with the behavior of test error with increasing network sizes, and could potentially explain the improvement in generalization with over-parametrization. We further present a matching lower bound for the Rademacher complexity that improves over previous capacity lower bounds for neural networks.

研究动机与目标

动机并量化为何在过参数化的情况下，增加神经网络宽度会改善泛化。
提出基于按单元容量与按单元影响的容量度量，使之更贴合观测到的实践。
推导出一个更紧的两层 ReLU 网络的泛化界，该界随隐藏单元数量的增加而减小。
给出对 Rademacher 复杂度的匹配下界，以证明该界的紧密性。

提出的方法

将按单元容量 beta_i 定义为 ||u_i - u_i^0||_2，按单元影响 alpha_i = ||v_i||_2。
将假设类限定为每个单元容量和影响有界的网络（V, U 属于集合 W）。
计算将损失在该类上的 Rademacher 复杂度，以获得一个随 sum_i alpha_i beta_i 与数据范数成分的界。
证明一个泛化界（定理 2），显示 L0(f) ≤ L_gamma_hat(f) + 随 h 收缩的项，加上一个小的 sqrt(h/m) 的附加项。
给出关于相关类的下界（定理 3），表明上界在常数范围内是紧的。
扩展讨论，使用基于 p-范数的覆盖对大 h 的细化界（定理 5 与引理 6）。

实验结果

研究问题

RQ1增大隐藏单元数量的过参数化是否会改善两层 ReLU 网络的泛化，原因是什么？
RQ2按单元容量与按单元影响能否比传统的基于范数的度量更好地解释泛化行为？
RQ3关于初始化和每单元约束的两层 ReLU 网络的 Rademacher 复杂度紧界是什么？
RQ4与现有界相比，所提界在 CIFAR-10、SVHN 和 MNIST 上的经验表现如何？
RQ5能否通过基于 p-范数的分析将结果扩展到更大的 h，以及它的权衡是什么？

主要发现

所提出的按单元容量界随隐藏单元增加而减小，与实验中较低的测试误差相关。
单位到初始化的距离（按单元容量）在更大网络中减小，而按单元影响（发出权重）也比 1/√h 降得更快。
该界使用顶层的 Frobenius 范数以及隐藏层权重与初始化之间的差值，且相对现有基于范数的界有改进。
建立了对 Rademacher 复杂度的匹配下界，优于以往界，凸显出对 Lipschitz 基于分析之外的差距。
在 CIFAR-10 和 SVHN 的经验结果显示，即使不使用显式正则化，较大网络也能泛化得更好，且按单元的度量随 h 的增大而下降。
对于极大 h 的情况，利用基于 p-范数的覆盖降低了有问题的 sqrt(h) 加法项（p 约为 log h）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。