Skip to main content
QUICK REVIEW

[论文解读] Gated Feedback Recurrent Neural Networks

Jun‐Young Chung, Çaǧlar Gülçehre|arXiv (Cornell University)|Feb 9, 2015
Neural Networks and Applications参考文献 23被引用 416
一句话总结

本文提出门控反馈循环神经网络(GF-RNN),一种新颖的深度RNN架构,通过全局门控机制在深层网络的高层与低层之间引入自适应、可学习的反馈连接,从而增强堆叠循环网络。该方法提升了长期依赖关系与层次化序列结构的建模能力,在字符级语言建模和Python程序评估任务上实现了最先进性能,收敛速度更快,泛化能力优于标准堆叠RNN。

ABSTRACT

In this work, we propose a novel recurrent neural network (RNN) architecture. The proposed RNN, gated-feedback RNN (GF-RNN), extends the existing approach of stacking multiple recurrent layers by allowing and controlling signals flowing from upper recurrent layers to lower layers using a global gating unit for each pair of layers. The recurrent signals exchanged between layers are gated adaptively based on the previous hidden states and the current input. We evaluated the proposed GF-RNN with different types of recurrent units, such as tanh, long short-term memory and gated recurrent units, on the tasks of character-level language modeling and Python program evaluation. Our empirical evaluation of different RNN units, revealed that in both tasks, the GF-RNN outperforms the conventional approaches to build deep stacked RNNs. We suggest that the improvement arises because the GF-RNN can adaptively assign different layers to different timescales and layer-to-layer interactions (including the top-down ones which are not usually present in a stacked RNN) by learning to gate these interactions.

研究动机与目标

  • 为使用深度循环网络建模序列数据中的长期依赖关系提供解决方案。
  • 通过在层间引入自适应、自上而下的反馈信号,提升堆叠RNN的表征能力。
  • 探究可学习门控的层间反馈是否能提升复杂序列建模任务的性能。
  • 评估所提出架构在大规模序列建模基准上的可扩展性与效率。

提出的方法

  • GF-RNN架构将多个循环层堆叠,并为每对相邻层引入一个全局门控单元,以控制从上层到下层的反馈信号。
  • 门控机制根据当前输入和先前隐藏状态自适应调节反馈连接的强度,实现对层间交互的动态控制。
  • 模型使用标准RNN单元(如LSTM、GRU或tanh),但通过引入门控反馈进行扩展,使自上而下的信息流成为可能,这是标准堆叠RNN所不具备的。
  • 反馈连接完全可微分,通过时间反向传播进行端到端训练,门控单元被参数化为输入和隐藏状态的可学习函数。
  • 该架构支持残差连接与非残差连接,支持深层网络中稳定训练带反馈路径的网络。
  • 实验采用Adam优化器,学习率设为0.001,$eta_1=0.9$,$eta_2=0.99$,在字符级语言建模和Python程序评估任务上进行训练。

实验结果

研究问题

  • RQ1堆叠RNN层之间的自适应反馈连接是否能改善序列数据中长期依赖关系的建模?
  • RQ2通过可学习门控引入自上而下的反馈是否能提升复杂序列任务的性能,相比标准堆叠RNN?
  • RQ3当应用于多层深层网络时,GF-RNN架构在性能与训练效率方面的可扩展性如何?
  • RQ4在结合门控反馈连接时,不同循环单元(LSTM、GRU、tanh)的影响如何?

主要发现

  • GF-RNN在字符级语言建模任务上优于标准堆叠RNN,在Hutter数据集上测试集BPC达到1.58,优于此前报告的最佳结果1.60(来自乘法RNN)。
  • 在Python程序评估任务上,GF-RNN显著优于堆叠RNN,尤其在嵌套层级高或序列长度长的任务中表现突出,如准确率差距热力图中红色和黄色区域所示,表明性能提升显著。
  • 使用五层堆叠LSTM(每层700个单元)的GF-RNN在字符级语言建模任务上达到最先进性能,展现出良好的可扩展性与强泛化能力。
  • 与同等容量的标准堆叠RNN相比,GF-RNN在实际运行时间上训练更快,表明训练效率更高。
  • 性能提升在使用LSTM或GRU单元时最为显著,而使用tanh单元的GF-RNN则出现性能下降,表明对激活函数选择较为敏感。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。