[论文解读] Entropy-SGD: Biasing Gradient Descent Into Wide Valleys
Entropy-SGD 引入基于局部熵的目标函数,使梯度下降偏向宽广、扁平的鞍谷,从而改善深度网络的泛化能力和训练速度。它采用两层循环的方法,在外层权重更新之前由内层的 Langevin 动力学来估计局部熵。
This paper proposes a new optimization algorithm called Entropy-SGD for training deep neural networks that is motivated by the local geometry of the energy landscape. Local extrema with low generalization error have a large proportion of almost-zero eigenvalues in the Hessian with very few positive or negative eigenvalues. We leverage upon this observation to construct a local-entropy-based objective function that favors well-generalizable solutions lying in large flat regions of the energy landscape, while avoiding poorly-generalizable solutions located in the sharp valleys. Conceptually, our algorithm resembles two nested loops of SGD where we use Langevin dynamics in the inner loop to compute the gradient of the local entropy before each update of the weights. We show that the new objective has a smoother energy landscape and show improved generalization over SGD using uniform stability, under certain assumptions. Our experiments on convolutional and recurrent networks demonstrate that Entropy-SGD compares favorably to state-of-the-art techniques in terms of generalization error and training time.
研究动机与目标
- 通过利用能量地形的局部几何特征来激励深度网络的训练。
- 提出基于局部熵的目标函数,偏向宽谷而非尖锐极小值。
- 开发一种优化算法(Entropy-SGD),通过 Langevin 动力学估计局部熵。
- 在特定假设下分析平滑化效应和泛化保证。
- 在 CNN、RNN 以及文本/视觉基准上展示经验性能。
提出的方法
- 将局部熵 F(x, gamma) 定义为一个修正的 Gibbs 分布在 x 的邻域内的对数配分函数。
- 通过对 Gibbs 分布的期望导出局部熵的梯度,并用随机梯度 Langevin 动力学(SGLD)近似。
- 实现 Entropy-SGD 作为一个外层 SGD 循环,使用 -F(x, gamma) 的梯度更新权重,在内层进行 L 次 SGLD 步骤以估计局部熵梯度。
- 引入一个控制邻域大小的覆盖参数 gamma,并提出一个指数式进度表以逐步聚焦于更宽的谷地。
- 讨论实际实现细节,包括 SGLD 步骤、μ 的平均、动量和学习率的选择。
- 提供一个理论视角,将更平滑的局部熵目标与改进的稳定性和泛化界联系起来。
实验结果
研究问题
- RQ1基于局部熵的目标是否比标准 SGD 导致更平滑的优化景观?
- RQ2Entropy-SGD 是否可以通过将搜索偏向于宽谷来实现更好的泛化?
- RQ3覆盖参数 gamma 如何影响优化动力学和泛化?
- RQ4在 CNN、RNN 和语言模型上可以实现哪些在泛化和训练速度方面的经验性提升?
主要发现
- 跨体系的局部极值处的 Hessian 特征谱显示许多近似为零的方向和较少的大的正曲率,这表明宽谷更易泛化。
- Entropy-SGD 相较于基线具有可比甚至更好的泛化,同时通常训练更快,在 RNN 上甚至实现了约 2 倍加速。
- 使用 SGLD 来估计局部熵的梯度会得到更平滑的有效损失景观,并改善基于稳定性的泛化界。
- 该方法可扩展至在 MNIST、CIFAR-10 和 PTB 上的深度网络,具有具有竞争力的测试误差和有利的训练动态。
- gamma 的覆盖计划允许在粗略尺度上探索,在更细的尺度上进行细化,提升效率和泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。