Skip to main content
QUICK REVIEW

[论文解读] On the difficulty of training Recurrent Neural Networks

Razvan Pascanu, Tomáš Mikolov|arXiv (Cornell University)|Nov 21, 2012
Neural Networks and Applications参考文献 23被引用 3,783
一句话总结

本文从分析、几何和动力学角度分析了循环神经网络中的梯度消失和梯度爆炸问题,并提出梯度裁剪结合一个消梯度正则化来改善对长期依赖的训练;并在合成任务和真实数据集上对该方法进行了实证验证。

ABSTRACT

There are two widely known issues with properly training Recurrent Neural Networks, the vanishing and the exploding gradient problems detailed in Bengio et al. (1994). In this paper we attempt to improve the understanding of the underlying issues by exploring these problems from an analytical, a geometric and a dynamical systems perspective. Our analysis is used to justify a simple yet effective solution. We propose a gradient norm clipping strategy to deal with exploding gradients and a soft constraint for the vanishing gradients problem. We validate empirically our hypothesis and proposed solutions in the experimental section.

研究动机与目标

  • 研究循环神经网络中梯度消失和梯度爆炸的原因。
  • 提出通过梯度范数裁剪来缓解梯度爆炸的实用方法。
  • 提出一种软消梯度正则化,以在时间反向传播中保持有信息的梯度流。
  • 在合成任务和真实世界序列建模基准上对所提出的方法进行实证验证。

提出的方法

  • 使用时间展开的乘积和形式推导梯度表达式以突出梯度爆炸。
  • 通过雅可比乘积和循环权值矩阵的谱半径来刻画梯度爆炸的条件。
  • 提出梯度范数裁剪以在训练过程中限制大梯度范数。
  • 引入一种消梯度正则化器,倾向于在时间反向传播时维持梯度范数。
  • 使用 Theano 计算梯度并在合成数据和真实数据集上进行验证。

实验结果

研究问题

  • RQ1在具有长期依赖的RNN中是否会出现梯度爆炸?在何种条件下?
  • RQ2梯度范数裁剪是否能稳定训练并实现长期相关性的学习?
  • RQ3软消梯度正则化是否在不损害短期性能的前提下改善对长期依赖的学习?
  • RQ4所提出的方法在合成病理任务和真实世界序列建模数据集上的表现如何?
  • RQ5就性能与泛化而言,与现有策略(如 LSTM、Hessian-free)相比,该方法如何?

主要发现

数据集数据折叠SGDSGD+CSGD+CR
Piano-midi.detrain6.876.817.01
Piano-midi.detest7.567.537.46
Nottinghamtrain3.673.213.24
Nottinghamtest3.803.483.46
MuseDatatrain8.256.546.51
MuseDatatest7.117.006.99
Penn Treebank1 step1.461.341.36
Penn Treebank1 step1.501.421.41
Penn Treebank5 stepsN/A3.763.70
Penn Treebank5 stepsN/A3.893.74
  • 基于范数的梯度裁剪有效控制梯度爆炸并提升训练稳定性。
  • 软消梯度正则化有助于保留有用的时间相关性,而不强制梯度流的严格等价。
  • 具备裁剪与正则化的 SGD(SGD-CR)能解决需要记忆的长序列任务,包括长度达到200的时间顺序问题。
  • 在多声部音乐预测和语言建模任务上,SGD-CR在多个数据集上提升或达到最新结果。
  • 梯度裁剪与正则化在合成病理问题和真实世界任务上均产生显著的经验收益,并提升泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。