Skip to main content
QUICK REVIEW

[论文解读] Understanding the exploding gradient problem

Razvan Pascanu, Tomáš Mikolov|arXiv (Cornell University)|Nov 21, 2012
Model Reduction and Neural Networks参考文献 16被引用 405
一句话总结

本文通过分析、几何和动力系统三种视角,研究了循环神经网络(RNNs)训练过程中梯度爆炸问题的根本原因。该文提出并实证验证了梯度范数裁剪作为一种有效的启发式方法,证明其在字符预测和多音音乐生成任务中实现最先进性能的必要性。

ABSTRACT

Training Recurrent Neural Networks is more troublesome than feedforward ones because of the vanishing and exploding gradient problems detailed in Bengio et al. (1994). In this paper we attempt to understand the fundamental issues underlying the exploding gradient problem by exploring it from an analytical, a geometric and a dynamical system perspective. Our analysis is used to justify the simple yet effective solution of norm clipping the exploded gradient. In the experimental section, the comparison between this heuristic solution and standard SGD provides empirical evidence towards our hypothesis as well as it shows that such a heuristic is required to reach state of the art results on a character prediction task and a polyphonic music prediction one.

研究动机与目标

  • 从多种理论视角理解循环神经网络中梯度爆炸问题的根本原因。
  • 利用分析、几何和动力系统框架,分析反向传播时间过程中的梯度流不稳定性。
  • 评估梯度范数裁剪作为缓解梯度爆炸问题的实际解决方案的有效性。
  • 通过实证方法证明,范数裁剪对于在序列建模基准上实现最先进性能至关重要。

提出的方法

  • 对RNN中的梯度计算进行分析性研究,以识别导致梯度指数增长的条件。
  • 对权重空间进行几何分析,以可视化训练过程中梯度路径的发散情况。
  • 通过动力系统建模研究梯度流的长期行为,并识别不稳定的阈值。
  • 应用梯度范数裁剪作为启发式方法,以约束梯度更新并稳定训练过程。
  • 在基准序列任务上,将范数裁剪训练与标准随机梯度下降(SGD)进行比较。

实验结果

研究问题

  • RQ1RNN中梯度爆炸的潜在数学和动力学机制是什么?
  • RQ2损失曲面的几何特性在多大程度上导致了梯度爆炸?
  • RQ3梯度范数裁剪在在多大程度上能稳定训练并提升序列建模任务的性能?
  • RQ4在字符和音乐序列预测任务中,梯度范数裁剪是否为实现最先进结果所必需?

主要发现

  • 梯度爆炸问题源于反向传播时间过程中雅可比矩阵的指数累积,导致训练不稳定。
  • 几何分析表明,由于权重空间中存在不稳定不动点,梯度向量的幅值会迅速增大。
  • 范数裁剪通过防止极端的梯度更新有效稳定了训练过程,从而实现收敛。
  • 实证结果表明,范数裁剪在字符预测和多音音乐生成任务中均是实现最先进性能的必要条件。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。