QUICK REVIEW

[论文解读] Exploring Generalization in Deep Learning

Behnam Neyshabur, Srinadh Bhojanapalli|arXiv (Cornell University)|Jun 27, 2017

Adversarial Robustness in Machine Learning参考文献 24被引用 295

一句话总结

这篇论文评估了若干提出的复杂度度量（范数、边界、锋度和 PAC-Bayes），以理解并解释深度神经网络的泛化，并强调尺度归一化以及锋度与范数之间的相互作用。

ABSTRACT

With a goal of understanding what drives generalization in deep networks, we consider several recently suggested explanations, including norm-based control, sharpness and robustness. We study how these measures can ensure generalization, highlighting the importance of scale normalization, and making a connection between sharpness and PAC-Bayes theory. We then investigate how well the measures explain different observed phenomena.

研究动机与目标

激励并分析驱动深度神经网络泛化的因素，超越训练误差本身。
评估所提出的复杂度度量是否能保证泛化并解释观察到的现象。
探索尺度、范数和边距在衡量网络容量与泛化中的作用。
将锋度与 PAC-Bayes 理论结合，形成一个平衡的复杂度度量。

提出的方法

回顾并形式化若干复杂度度量（范数、边距、锋度和 PAC-Bayes 上界），适用于带 ReLU 激活的深度网络。
基于范数度量如 ||W_i|| 和路径范数，推导容量上界，纳入边距项 gamma_margin。
分析 Lipschitz/鲁棒性的含义，并展示单独使用 Lipschitz 常数来控制容量的局限性。
使用 PAC-Bayes 上界将期望锋度与到先验的 KL 散度联系起来，以获得泛化保证。
对在真实标签与随机标签下训练的网络、不同网络规模以及多种优化设置进行实证研究，以测试度量是否与泛化相关。
提供锋度与 KL 发散的双目标图，以评估联合容量控制。

实验结果

研究问题

RQ1基于范数与边距的容量度量是否足以解释深度网络的泛化？
RQ2在 PAC-Bayes 框架内，锋度如何与范数和边距相互作用以预测泛化？
RQ3这些度量是否能够区分在真实标签与随机标签下训练的模型，以及在不同网络规模或优化方案之间？
RQ4尺度（输出幅值）对复杂度度量和泛化有何影响？
RQ5是否存在这些度量可以解释或不能解释的经验现象（例如更多隐藏单元提高泛化）？

主要发现

基于范数或路径范数的度量与边距相结合，可以解释在真实标签与随机标签训练的模型之间的泛化差异。
单纯的锋度不足以单独预测泛化且依赖尺度；在 PAC-Bayes 视角下，与范数平衡时其应用性提高。
将期望锋度与相对于先验的 KL 散度综合考虑的联合 PAC-Bayes 分析，比单独任一项更能预测泛化。
实证结果表明，通过这些范数和路径范数衡量的容量，并不总是随着参数增加而增加；网络优化偏差（隐式正则化）和边距缩放起着关键作用。
双目标图（锋度 vs. KL 散度）显示，在真实标签训练的模型往往实现更优的权衡，尤其当训练集规模增大时。
观察表明某些度量无法解释所有泛化现象（例如超出某个规模的大型网络），突显单一度量解释的局限性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。