QUICK REVIEW

[论文解读] Optimization for deep learning: theory and algorithms

Ruoyu Sun|arXiv (Cornell University)|Dec 19, 2019

Stochastic Gradient Optimization Techniques参考文献 256被引用 132

一句话总结

本综述评估用于训练神经网络的优化方法与理论，涉及梯度问题、训练技巧，以及局部与全局训练问题。

ABSTRACT

When and why can a neural network be successfully trained? This article provides an overview of optimization algorithms and theory for training neural networks. First, we discuss the issue of gradient explosion/vanishing and the more general issue of undesirable spectrum, and then discuss practical solutions including careful initialization and normalization methods. Second, we review generic optimization methods used in training neural networks, such as SGD, adaptive gradient methods and distributed methods, and theoretical results for these algorithms. Third, we review existing research on the global issues of neural network training, including results on bad local minima, mode connectivity, lottery ticket hypothesis and infinite-width analysis.

研究动机与目标

解释为什么神经网络能够成功训练，以及哪些因素会影响训练的成功。
综述梯度爆炸/消失问题及谱控制，并给出实际的补救方法。
综述在神经网络中使用的通用优化算法及其理论结果。
讨论全局训练挑战，如糟糕的局部极小值、模式连通性、彩票假设，以及无限宽度分析。

提出的方法

讨论梯度爆炸/消失及谱控制；提出如谨慎初始化和归一化等补救方法。
回传播的回顾并提供一个结构化的梯度计算框架。
总结非凸问题的一般优化方法，包括 SGD、自适应方法和分布式训练，并给出收敛性见解。
介绍关于神经网络特定技巧及其理论基础的讨论。
考察全局优化视角，包括景观特性与无限宽度分析。

实验结果

研究问题

RQ1在训练深度神经网络时会出现哪些优化挑战，以及如何缓解？
RQ2初始化、归一化以及结构选择如何影响收敛性和训练速度？
RQ3梯度基方法在深度学习中的理论保证与局限性？
RQ4神经网络的哪些全局性质会影响找到良好解的能力（例如局部极小值、模式连通性、彩票假设、NTK）？

主要发现

梯度问题如爆炸和消失是训练困难的核心，与收敛速度和景观特性相关。
小心的初始化和归一化在稳定训练和实现收敛方面起着关键作用。
SGD及自适应方法，连同分布式训练，是核心优化工具，在一定假设下具有已建立的收敛性与复杂度结果。
全局优化视角揭示如模式连通性和无限宽度行为等现象，有助于理解训练动态。
理论分析将初始化、信号传播与宽度联系起来，解释在各种激活函数下的实际训练成功。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。