QUICK REVIEW
[论文解读] Exploring Generalization in Deep Learning
Behnam Neyshabur, Srinadh Bhojanapalli|arXiv (Cornell University)|Jun 27, 2017
Adversarial Robustness in Machine Learning参考文献 24被引用 295
一句话总结
这篇论文评估了若干提出的复杂度度量(范数、边界、锋度和 PAC-Bayes),以理解并解释深度神经网络的泛化,并强调尺度归一化以及锋度与范数之间的相互作用。
ABSTRACT
With a goal of understanding what drives generalization in deep networks, we consider several recently suggested explanations, including norm-based control, sharpness and robustness. We study how these measures can ensure generalization, highlighting the importance of scale normalization, and making a connection between sharpness and PAC-Bayes theory. We then investigate how well the measures explain different observed phenomena.
研究动机与目标
- 激励并分析驱动深度神经网络泛化的因素,超越训练误差本身。
- 评估所提出的复杂度度量是否能保证泛化并解释观察到的现象。
- 探索尺度、范数和边距在衡量网络容量与泛化中的作用。
- 将锋度与 PAC-Bayes 理论结合,形成一个平衡的复杂度度量。
提出的方法
- 回顾并形式化若干复杂度度量(范数、边距、锋度和 PAC-Bayes 上界),适用于带 ReLU 激活的深度网络。
- 基于范数度量如 ||W_i|| 和路径范数,推导容量上界,纳入边距项 gamma_margin。
- 分析 Lipschitz/鲁棒性的含义,并展示单独使用 Lipschitz 常数来控制容量的局限性。
- 使用 PAC-Bayes 上界将期望锋度与到先验的 KL 散度联系起来,以获得泛化保证。
- 对在真实标签与随机标签下训练的网络、不同网络规模以及多种优化设置进行实证研究,以测试度量是否与泛化相关。
- 提供锋度与 KL 发散的双目标图,以评估联合容量控制。
实验结果
研究问题
- RQ1基于范数与边距的容量度量是否足以解释深度网络的泛化?
- RQ2在 PAC-Bayes 框架内,锋度如何与范数和边距相互作用以预测泛化?
- RQ3这些度量是否能够区分在真实标签与随机标签下训练的模型,以及在不同网络规模或优化方案之间?
- RQ4尺度(输出幅值)对复杂度度量和泛化有何影响?
- RQ5是否存在这些度量可以解释或不能解释的经验现象(例如更多隐藏单元提高泛化)?
主要发现
- 基于范数或路径范数的度量与边距相结合,可以解释在真实标签与随机标签训练的模型之间的泛化差异。
- 单纯的锋度不足以单独预测泛化且依赖尺度;在 PAC-Bayes 视角下,与范数平衡时其应用性提高。
- 将期望锋度与相对于先验的 KL 散度综合考虑的联合 PAC-Bayes 分析,比单独任一项更能预测泛化。
- 实证结果表明,通过这些范数和路径范数衡量的容量,并不总是随着参数增加而增加;网络优化偏差(隐式正则化)和边距缩放起着关键作用。
- 双目标图(锋度 vs. KL 散度)显示,在真实标签训练的模型往往实现更优的权衡,尤其当训练集规模增大时。
- 观察表明某些度量无法解释所有泛化现象(例如超出某个规模的大型网络),突显单一度量解释的局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。