Skip to main content
QUICK REVIEW

[论文解读] Fast-Slow Recurrent Neural Networks

Asier Mujika, Florian Meier|arXiv (Cornell University)|May 24, 2017
Neural Networks and Applications参考文献 21被引用 41
一句话总结

本文提出了一种新型的循环神经网络架构——快速-慢速循环神经网络(FS-RNN),通过结合多尺度和深层转移RNN,利用快速响应和慢速响应的RNN单元,高效学习长期依赖关系并快速适应输入变化。该模型在Penn Treebank数据集上实现了1.19比特/字符(BPC)的最先进结果,在Hutter Prize Wikipedia数据集上通过集成方法达到1.20 BPC,优于目前已知的最佳压缩算法。

ABSTRACT

Processing sequential data of variable length is a major challenge in a wide range of applications, such as speech recognition, language modeling, generative image modeling and machine translation. Here, we address this challenge by proposing a novel recurrent neural network (RNN) architecture, the Fast-Slow RNN (FS-RNN). The FS-RNN incorporates the strengths of both multiscale RNNs and deep transition RNNs as it processes sequential data on different timescales and learns complex transition functions from one time step to the next. We evaluate the FS-RNN on two character level language modeling data sets, Penn Treebank and Hutter Prize Wikipedia, where we improve state of the art results to $1.19$ and $1.25$ bits-per-character (BPC), respectively. In addition, an ensemble of two FS-RNNs achieves $1.20$ BPC on Hutter Prize Wikipedia outperforming the best known compression algorithm with respect to the BPC measure. We also present an empirical investigation of the learning and network dynamics of the FS-RNN, which explains the improved performance compared to other RNN architectures. Our approach is general as any kind of RNN cell is a possible building block for the FS-RNN architecture, and thus can be flexibly applied to different tasks.

研究动机与目标

  • 解决具有可变长度和长期依赖关系的序列数据建模挑战。
  • 通过整合多尺度RNN与深层转移RNN的优势,改进现有RNN架构。
  • 在保持计算效率的同时,实现对复杂转移函数的高效学习。
  • 提供一种可泛化的框架,支持任意类型的RNN单元作为构建模块。
  • 通过实证验证该架构在存储长期依赖关系和快速适应意外输入方面的能力。

提出的方法

  • FS-RNN架构在低层使用两个快速RNN单元,在高层使用一个慢速RNN单元,且慢速单元更新频率较低。
  • 快速单元以高频处理输入,实现对短期输入变化的快速适应。
  • 慢速单元在更粗粒度的时间尺度上运行,通过稳定的隐藏状态存储并传播长期依赖关系。
  • 该架构具有通用性,可使用任意RNN单元类型(如LSTM或GRU)进行实例化。
  • 模型采用标准的反向传播时间算法进行训练,并通过梯度流动分析验证长期记忆保持能力。
  • 在字符级语言建模任务上对模型进行评估,使用Penn Treebank和Hutter Prize Wikipedia数据集。

实验结果

研究问题

  • RQ1一种结合快速与慢速处理时间尺度的混合RNN架构,是否能提升序列建模中的长期依赖关系学习?
  • RQ2在梯度流动与长期记忆保持方面,FS-RNN与堆叠LSTM和顺序LSTM相比表现如何?
  • RQ3快速层是否能实现对意外或高熵输入(如单词首字母)的更快适应?
  • RQ4FS-RNN能否在比特/字符(BPC)性能上超越最先进模型及已知压缩算法?
  • RQ5该架构设计在保持序列信息分层表征的同时,多大程度上支持高效训练与推理?

主要发现

  • FS-RNN在Penn Treebank数据集上实现了1.19比特/字符(BPC)的新SOTA结果。
  • 两个FS-RNN的集成在Hutter Prize Wikipedia数据集上达到1.20 BPC,优于最佳已知压缩算法。
  • 慢速RNN单元在从时间t-k的单元状态到时间t损失的梯度幅值最大,表明其具有强大的长期依赖学习能力。
  • 快速RNN单元在时间上的状态变化极小,表明其仅存储短期信息并能快速适应新输入。
  • 顺序LSTM的梯度随时间衰减最剧烈,表明其长期记忆能力明显弱于FS-RNN和堆叠LSTM。
  • 在预测首个字符之后的后续字符时,FS-RNN在性能上优于堆叠LSTM和顺序LSTM,证明其对意外输入具有更优的适应能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。