QUICK REVIEW
[论文解读] Geometry of Optimization and Implicit Regularization in Deep Learning
Behnam Neyshabur, Ryota Tomioka|arXiv (Cornell University)|May 8, 2017
Advanced Numerical Analysis Techniques参考文献 5被引用 89
一句话总结
本论文主张优化几何会在深度网络中引发隐式正则化,表明泛化由优化动力学而非网络规模所支配,并引入 Path-SGD 作为一种对重新缩放不变、路径正则化的优化方法。
ABSTRACT
We argue that the optimization plays a crucial role in generalization of deep learning models through implicit regularization. We do this by demonstrating that generalization ability is not controlled by network size but rather by some other implicit control. We then demonstrate how changing the empirical optimization procedure can improve generalization, even if actual optimization quality is not affected. We do so by studying the geometry of the parameter space of deep networks, and devising an optimization algorithm attuned to this geometry.
研究动机与目标
- 阐明优化在深度学习中作为隐式正则化的作用。
- 研究在不同优化动力学下,网络规模如何与泛化相关。
- 提出一种几何感知的优化方法,以提升 RELU 网络的泛化能力。
提出的方法
- 通过路径范数和由输入到输出路径上的权值乘积定义的路径正则化器,引入基于路径的正则化。
- 定义重新缩放不变性,并证明标准的 SGD/梯度下降对于 RELU 网络并非重新缩放不变。
- 将 Path-SGD 更新推导为相对于路径正则化器的近似最速下降。
- 提供一个高效的前向-后向算法,在不枚举所有路径的情况下计算 Path-SGD 更新。
- 通过在 MNIST、CIFAR-10/100 和 SVHN 上的实验表明,与 SGD 和 AdaGrad(有无 dropout)相比,Path-SGD 可以更快收敛并带来更好的泛化。
实验结果
研究问题
- RQ1深度网络中的泛化是否仅由网络规模决定,还是存在由优化驱动的隐式容量控制?
- RQ2一种几何感知的优化方法是否能够与归纳偏置对齐,从而提升 RELU 网络的泛化?
- RQ3是否有可能构建一种对重新缩放不变的优化算法,以避免来自不平衡网络的问题?
- RQ4基于路径的正则化是否比传统的权重衰减提供更好的隐式正则化和泛化?
- RQ5Path-SGD 与常用基准优化器相比表现如何?
主要发现
- 增大网络规模可以继续降低训练误差,同时测试误差仍可能下降,表明来自优化的隐式正则化。
- Path-SGD,一种路径正则化、对重新缩放不变的更新,通常达到与 SGD 或 AdaGrad 相近甚至更好的目标并具有更好的泛化。
- Path-SGD 更新可以在带小批量的前向-后向传播中高效实现,使其适用于标准训练周期。
- 实验表明,在各种设置下(平衡/不平衡初始化、是否使用 dropout),Path-SGD 在训练速度和泛化方面优于基线,在 MNIST、CIFAR-10/100 及 SVHN 上尤为突出。
- 路径正则化器对重新缩放不变,且 Path-SGD 被证明对重新缩放不变,进一步提升其对 RELU 网络的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。