[论文解读] An empirical analysis of the optimization of deep network loss surfaces
本文通过在不同优化算法的收敛点附近进行低维投影,实证研究了深度神经网络损失函数的几何特性。研究发现,随机梯度下降变体在鞍点处始终选择不同的下降方向,从而导致最终解存在差异——即使在相同初始化条件下也是如此,凸显了批量归一化在稳定优化轨迹中的关键作用。
The success of deep neural networks hinges on our ability to accurately and efficiently optimize high-dimensional, non-convex functions. In this paper, we empirically investigate the loss functions of state-of-the-art networks, and how commonly-used stochastic gradient descent variants optimize these loss functions. To do this, we visualize the loss function by projecting them down to low-dimensional spaces chosen based on the convergence points of different optimization algorithms. Our observations suggest that optimization algorithms encounter and choose different descent directions at many saddle points to find different final weights. Based on consistency we observe across re-runs of the same stochastic optimization algorithm, we hypothesize that each optimization algorithm makes characteristic choices at these saddle points.
研究动机与目标
- 理解真实深度网络损失函数的几何结构及其与优化算法的相互作用。
- 研究为何不同优化算法在相同初始化下收敛到不同解。
- 考察批量归一化在塑造优化轨迹一致性与稳定性方面的作用。
- 评估优化算法在训练后期是否仍会遇到或偏离鞍点。
- 确定不同最终权重是否代表等价解,或在定性行为上存在本质差异。
提出的方法
- 通过初始权重与最终收敛点之间的插值,将高维损失函数投影到低维空间。
- 通过不同优化算法获得的最终权重之间的插值,可视化损失函数表面。
- 使用五种常见的一阶优化方法:SGD、SGDM、RMSprop、Adadelta 和 Adam。
- 在 NIN、VGG 和 FC2 网络上,使用 CIFAR10 和 MNIST 数据集,有无批量归一化条件下进行实验。
- 通过不同随机初始化的多次重运行,评估解的一致性。
- 分析最终权重附近的损失函数表面形状,识别算法特异性特征及鞍点行为。
实验结果
研究问题
- RQ1当初始化相同时,不同优化算法是否收敛到相同或不同的解?
- RQ2不同优化算法找到的最终解附近的损失函数几何形状有何差异?
- RQ3批量归一化在多大程度上影响了优化轨迹的一致性与稳定性?
- RQ4即使在训练后期,是否仍会遇到鞍点?这些鞍点是否导致算法特异性偏离?
- RQ5不同最终解是否代表等价模型,还是在定性行为上存在本质差异?
主要发现
- 即使初始化相同,不同优化算法也始终收敛到不同的最终权重,表明在鞍点处存在算法特异性选择。
- 不同优化算法对应的最终解附近的损失函数表面呈现出独特且具有特征的形状。
- 在训练后期切换优化算法,最终解会呈现第二种算法的特征,表明仍在持续穿越鞍点。
- 若无批量归一化,解在多次重运行中的一致性显著降低,损失函数表面形状更复杂多变。
- 在投影空间中,最终权重对之间存在高损失凸起,表明不同解并非同一模型的简单参数化。
- 研究结果挑战了优化效率在凸函数上成立的假设可推广至深度网络损失函数的普遍认知,原因在于鞍点普遍存在,且下降方向依赖于算法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。