Skip to main content
QUICK REVIEW

[论文解读] A Simple Way to Initialize Recurrent Networks of Rectified Linear Units

Quoc V. Le, Navdeep Jaitly|arXiv (Cornell University)|Apr 3, 2015
Topic Modeling参考文献 32被引用 554
一句话总结

该论文提出了一种简单但有效的循环网络(Recurrent Networks)权重初始化方法,针对使用修正线性单元(ReLUs)的网络,将循环权重矩阵初始化为单位矩阵(或缩放版本)。该方法在反向传播过程中稳定了梯度流动,使得深层RNN能够高效训练,并在长距离依赖任务(包括语言建模和语音识别)中达到与LSTM相当的性能。

ABSTRACT

Learning long term dependencies in recurrent networks is difficult due to vanishing and exploding gradients. To overcome this difficulty, researchers have developed sophisticated optimization techniques and network architectures. In this paper, we propose a simpler solution that use recurrent neural networks composed of rectified linear units. Key to our solution is the use of the identity matrix or its scaled version to initialize the recurrent weight matrix. We find that our solution is comparable to LSTM on our four benchmarks: two toy problems involving long-range temporal structures, a large language modeling problem and a benchmark speech recognition problem.

研究动机与目标

  • 解决使用ReLU单元训练循环网络时出现的梯度消失和梯度爆炸问题。
  • 探究基于ReLU的RNN是否能在无需复杂门控机制的情况下,实现与LSTM相当的性能。
  • 确定简单的权重初始化策略是否能够稳定训练过程,并有效学习长距离时间依赖关系。
  • 探索单位矩阵初始化是否可作为LSTM复杂架构的可行替代方案。
  • 在包括语言建模和语音识别在内的多样化基准上,评估该方法的有效性。

提出的方法

  • 将使用ReLU单元的RNN的循环权重矩阵初始化为单位矩阵(或缩放版本),偏置设为零。
  • 使用标准的时间反向传播计算误差梯度,采用带动量的随机梯度下降进行优化。
  • 应用梯度裁剪以防止训练过程中出现梯度爆炸。
  • 对于长距离依赖性较弱的任务,使用缩放后的单位矩阵(如0.01I)以加快对过去信息的遗忘。
  • 为序列建模任务(如语音识别)实现模型的双向变体。
  • 在大规模词汇量语言建模任务中,使用线性投影层降低输出维度,以最小化参数增长。

实验结果

研究问题

  • RQ1使用单位矩阵初始化训练的基于ReLU的RNN是否能像LSTM一样有效学习长距离时间依赖关系?
  • RQ2单位矩阵初始化是否能稳定ReLU RNN中的梯度流动,从而防止梯度消失或爆炸?
  • RQ3在真实任务(如语言建模和语音识别)中,单位矩阵初始化的ReLU RNN性能与标准RNN和LSTM相比如何?
  • RQ4在长距离依赖性不那么关键的任务中,缩放后的单位矩阵初始化是否比完整单位矩阵更有效?
  • RQ5与LSTM的架构复杂性相比,权重初始化在简单RNN成功中的作用是什么?

主要发现

  • 单位矩阵初始化使基于ReLU的RNN(iRNN)在10亿词语言建模基准测试中达到69.4的测试困惑度,与LSTM的68.8非常接近。
  • 在TIMIT语音识别任务中,一个5层双向iRNN在测试集上实现了28.9%的帧错误率,优于标准RNN,并接近5层双向LSTM的29.1%性能。
  • 对于长距离依赖性较弱的任务(如语音识别),使用缩放单位矩阵(0.01I)初始化可提升收敛速度和性能,优于完整单位矩阵初始化。
  • 尽管没有门控结构,4层、每层512个单元的iRNN在语言建模任务中性能与LSTM相当。
  • 在所有实验中,iRNN均优于使用tanh单元的标准RNN,证明了单位矩阵初始化在基于ReLU的RNN中的优越性。
  • 该方法可在无需Hessian-Free或自适应学习率等复杂优化技术的情况下,实现深层RNN的稳定训练,仅依赖简单的初始化和梯度裁剪。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。