QUICK REVIEW

[论文解读] Recent Advances in Recurrent Neural Networks

Hojjat Salehinejad, Sharan Sankar|arXiv (Cornell University)|Dec 29, 2017

Time Series Analysis and Forecasting参考文献 96被引用 580

一句话总结

对循环神经网络（RNN）的综述，涵盖基础知识、诸如梯度消失/爆炸等训练挑战，以及对包括反向传播通过时间（BPTT）、LSTM变体，以及HF/Adam EKF方法在内的结构和优化方法的综述。

ABSTRACT

Recurrent neural networks (RNNs) are capable of learning features and long term dependencies from sequential and time-series data. The RNNs have a stack of non-linear units where at least one connection between units forms a directed cycle. A well-trained RNN can model any dynamical system; however, training RNNs is mostly plagued by issues in learning long-term dependencies. In this paper, we present a survey on RNNs and several new advances for newcomers and professionals in the field. The fundamentals and recent advances are explained and the research challenges are introduced.

研究动机与目标

通过隐藏状态解释离散时间RNN的基础原理及其记忆。
回顾训练中的挑战，如梯度消失和梯度爆炸及其原因。
综述时间序列建模中的主要RNN架构及正则化方法。
突出包括梯度基、卡尔曼滤波基、二阶以及全局搜索策略在内的优化与训练方法。

提出的方法

给出含输入层、隐藏层和输出层的标准RNN形式及状态更新和输出的方程。
讨论激活函数及其对梯度传播和学习的影响。
回顾培训方法，包括通过时间的反向传播（BPTT）、梯度裁剪，以及优化算法（SGD、Adam、动量、Nesterov）。
描述基于扩展卡尔曼滤波的学习及其用于在线训练的解耦变体。
解释 Hessian-Free 优化及其在训练深层或循环模型中的作用。
涵盖全局优化方法和进化方法在RNN拓扑和参数搜索中的应用。

实验结果

研究问题

RQ1在训练RNN以捕捉长期依赖方面的核心挑战是什么？
RQ2不同的基于梯度和非梯度方法如何解决RNN中的梯度消失和梯度爆炸？
RQ3各种RNN 架构和训练方案对时间序列任务的性能有哪些影响？
RQ4哪些优化框架（二阶、HF、基于卡尔曼、全局）适用于RNN训练，以及在何时有利？

主要发现

RNN 可以建模动态系统，但训练受梯度消失和梯度爆炸的阻碍。
通过时间的反向传播将梯度扩展到跨时间的范围，体现了长期依赖的挑战。
存在广泛的训练方法，包括 SGD、Adam、动量、梯度裁剪、EKF/DEKF，以及 Hessian-Free 优化。
具有深层转换或深层输出的混合架构在某些任务中可以提高性能。
全局优化和进化策略为拓扑和参数调整提供了替代途径，尽管复杂性更高。
HF 优化和基于在线 EKF 的方法在非平稳或在线数据的 RNN 训练中显示出希望。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。