QUICK REVIEW
[论文解读] Recent Advances in Recurrent Neural Networks
Hojjat Salehinejad, Sharan Sankar|arXiv (Cornell University)|Dec 29, 2017
Time Series Analysis and Forecasting参考文献 96被引用 580
一句话总结
对循环神经网络(RNN)的综述,涵盖基础知识、诸如梯度消失/爆炸等训练挑战,以及对包括反向传播通过时间(BPTT)、LSTM变体,以及HF/Adam EKF方法在内的结构和优化方法的综述。
ABSTRACT
Recurrent neural networks (RNNs) are capable of learning features and long term dependencies from sequential and time-series data. The RNNs have a stack of non-linear units where at least one connection between units forms a directed cycle. A well-trained RNN can model any dynamical system; however, training RNNs is mostly plagued by issues in learning long-term dependencies. In this paper, we present a survey on RNNs and several new advances for newcomers and professionals in the field. The fundamentals and recent advances are explained and the research challenges are introduced.
研究动机与目标
- 通过隐藏状态解释离散时间RNN的基础原理及其记忆。
- 回顾训练中的挑战,如梯度消失和梯度爆炸及其原因。
- 综述时间序列建模中的主要RNN架构及正则化方法。
- 突出包括梯度基、卡尔曼滤波基、二阶以及全局搜索策略在内的优化与训练方法。
提出的方法
- 给出含输入层、隐藏层和输出层的标准RNN形式及状态更新和输出的方程。
- 讨论激活函数及其对梯度传播和学习的影响。
- 回顾培训方法,包括通过时间的反向传播(BPTT)、梯度裁剪,以及优化算法(SGD、Adam、动量、Nesterov)。
- 描述基于扩展卡尔曼滤波的学习及其用于在线训练的解耦变体。
- 解释 Hessian-Free 优化及其在训练深层或循环模型中的作用。
- 涵盖全局优化方法和进化方法在RNN拓扑和参数搜索中的应用。
实验结果
研究问题
- RQ1在训练RNN以捕捉长期依赖方面的核心挑战是什么?
- RQ2不同的基于梯度和非梯度方法如何解决RNN中的梯度消失和梯度爆炸?
- RQ3各种RNN 架构和训练方案对时间序列任务的性能有哪些影响?
- RQ4哪些优化框架(二阶、HF、基于卡尔曼、全局)适用于RNN训练,以及在何时有利?
主要发现
- RNN 可以建模动态系统,但训练受梯度消失和梯度爆炸的阻碍。
- 通过时间的反向传播将梯度扩展到跨时间的范围,体现了长期依赖的挑战。
- 存在广泛的训练方法,包括 SGD、Adam、动量、梯度裁剪、EKF/DEKF,以及 Hessian-Free 优化。
- 具有深层转换或深层输出的混合架构在某些任务中可以提高性能。
- 全局优化和进化策略为拓扑和参数调整提供了替代途径,尽管复杂性更高。
- HF 优化和基于在线 EKF 的方法在非平稳或在线数据的 RNN 训练中显示出希望。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。