QUICK REVIEW

[论文解读] Theory of Deep Learning IIb: Optimization Properties of SGD

Chiyuan Zhang, Qianli Liao|arXiv (Cornell University)|Jan 7, 2018

Domain Adaptation and Few-Shot Learning参考文献 1被引用 45

一句话总结

本文分析对参数过多的深度网络中的SGD/SGDL，认为噪声驱动的SGD集中在平坦、体积较大的极小值，这些极小值往往是全局极小值，有理论与实验支持，并对比自然标签与随机标签。

ABSTRACT

In Theory IIb we characterize with a mix of theory and experiments the optimization of deep convolutional networks by Stochastic Gradient Descent. The main new result in this paper is theoretical and experimental evidence for the following conjecture about SGD: SGD concentrates in probability -- like the classical Langevin equation -- on large volume, "flat" minima, selecting flat minimizers which are with very high probability also global minimizers

研究动机与目标

在深度学习优化不仅仅关注收敛的理解，聚焦于SGD在塑造过参数化网络极小值中的作用。
从理论上将SGD 动力学与 Langevin 型行为及玻尔兹曼分布联系起来，以解释平坦极小值的选择。
在经验上比较带有自然标签与随机标签的优化景观，以说明平坦性及泛化方面。

提出的方法

将SGD建模为带有梯度噪声xi_t的随机优化过程，并给出 f_{t+1} = f_t - γ_t(∇ I_{S_n}(f_t) + ξ_t)。
引入Langevin动力学，将SGD与对经验风险U的玻尔兹曼分布 p(f) ~ exp(-U/T) 相关联。
论证SGDL偏好简并（平坦）极小值，在深度相同的极小值中，倾向于体积更大的那一个，尤其在高维情形。
使用各向同性平坦性测试和三点内插，对CIFAR-10和MNIST的数据集中的极小值周围景观的平坦性进行量化。
比较自然标签与随机标签设置，以显示自然标签下的平坦区域更大。
提供平坦极小值与鲁棒优化/边界（Margin）之间的定性联系（将在理论三中详细阐述）。

实验结果

研究问题

RQ1在参数过多的深度网络中，SGD是否会集中于平坦、体积较大的极小值？
RQ2SGD（及SGDL）的随机性如何影响在高维景观中全局极小值之间的选择？
RQ3使用自然标签与随机标签训练时，优化景观会出现哪些差异？
RQ4Langevin 型动力学在典型深度学习情景中是否能提供对SGD的有效近似？
RQ5平坦性如何与鲁棒性、边界和深度网络的泛化相关？

主要发现

由于小批量梯度噪声，SGD的行为类似于离散化的 Langevin 演化。
由SGDL诱导的渐近玻尔兹曼分布集中于更平坦、体积更大的极小值，在等深度下偏向简并性。
在高维中，具有更大各向同性平坦区域的极小值在SGDL下更可能，提示偏向平坦、鲁棒解。
实验表明自然标签设置在极小值周围具有更大的平坦区域，超过随机标签设置，且通过平坦性测试量化。
在过参数化情形下，零误差解倾向于位于平坦区域，且更深的、轴对齐的极小值若不平坦则不太受偏好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。