QUICK REVIEW

[论文解读] Path-SGD: Path-Normalized Optimization in Deep Neural Networks

Behnam Neyshabur, Ruslan Salakhutdinov|arXiv (Cornell University)|Jun 8, 2015

Stochastic Gradient Optimization Techniques参考文献 16被引用 164

一句话总结

本文提出 Path-SGD，一种用于深度神经网络的优化方法，通过路径归一化梯度下降实现权重重标度不变性——确保在权重重标度下网络函数保持等价。通过近似于受最大范数正则化启发的路径正则化下的最速下降，Path-SGD 在收敛速度和泛化能力方面优于 SGD 和 AdaGrad，尤其在权重初始化不平衡时表现更优。

ABSTRACT

We revisit the choice of SGD for training deep neural networks by reconsidering the appropriate geometry in which to optimize the weights. We argue for a geometry invariant to rescaling of weights that does not affect the output of the network, and suggest Path-SGD, which is an approximate steepest descent method with respect to a path-wise regularizer related to max-norm regularization. Path-SGD is easy and efficient to implement and leads to empirical gains over SGD and AdaGrad.

研究动机与目标

为解决标准 SGD 在深度学习中的局限性，重新思考权重优化的几何结构。
开发一种对权重重标度不变的优化方法，该重标度不影响网络的输出函数。
通过使优化几何与 ReLU 网络的归纳偏置对齐，提升训练效率与泛化能力。
证明路径归一化优化相比标准 $β$-范数或权重衰减能实现更好的隐式正则化。
提供一种实用且高效的 SGD 替代方案，可轻松集成至现有训练流程中。

提出的方法

提出 Path-SGD 作为对路径正则化近似最速下降的方法，该正则化源自所有权重重标度下最小最大范数的推导。
通过在任一隐藏单元处将输入权重乘以常数因子 $c > 0$ 并将输出权重除以该因子，定义权重重标度不变性。
引入一种路径正则化器，计算所有此类重标度下可能的最小最大范数，确保对权重重标度的不变性。
利用该正则化器在权重空间上定义类似黎曼几何的结构，实现对重标度不变的最速下降更新。
通过在网络图中对路径进行动态规划，高效计算路径正则化器，实现 Path-SGD 的高效实现。
将 Path-SGD 与自适应步长（如 AdaGrad）及动量结合，表明其与现有优化启发式方法兼容。

实验结果

研究问题

RQ1能否设计一种在深度网络优化中对权重重标度不变的几何结构，因为此类重标度并不影响网络函数？
RQ2与标准 SGD 和 AdaGrad 相比，路径归一化优化是否能实现更快的收敛速度和更好的泛化性能？
RQ3能否高效计算并实际应用基于所有重标度下最小最大范数的正则化器来训练深度网络？
RQ4Path-SGD 所诱导的隐式正则化是否能改善泛化性能，尤其是在权重初始化较差或不平衡时？
RQ5在使用和不使用 dropout 的情况下，Path-SGD 与 SGD 和 AdaGrad 相比表现如何？

主要发现

Path-SGD 在多个基准数据集（包括 MNIST、CIFAR-10、CIFAR-100 和 SVHN）上均实现比 SGD 和 AdaGrad 更快的收敛速度。
在权重初始化不平衡的情况下，Path-SGD 保持性能稳定，而 SGD 和 AdaGrad 的训练误差与测试误差显著下降。
Path-SGD 的泛化性能优于 SGD 和 AdaGrad，即使在训练误差为零时，测试误差也更低，表明其隐式正则化更优。
该方法在数值上稳定，无论网络以平衡或非平衡方式初始化，均产生完全相同的优化轨迹。
Path-SGD 在训练速度和最终泛化误差方面均优于基线方法，尤其在使用 dropout 的设置下表现更优。
该方法与自适应步长和动量兼容，表明与这些技术结合可进一步提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。