Skip to main content
QUICK REVIEW

[论文解读] Recurrent Neural Networks and Long Short-Term Memory Networks: Tutorial and Survey

Benyamin Ghojogh, Ali Ghodsi|arXiv (Cornell University)|Apr 22, 2023
Neural Networks and Reservoir Computing被引用 16
一句话总结

本教程综述RNN、LSTM及变体,详细讨论动态系统、BPTT、梯度消失/爆炸,以及带 GRU 与 ELMo 上下文的双向架构。

ABSTRACT

This is a tutorial paper on Recurrent Neural Network (RNN), Long Short-Term Memory Network (LSTM), and their variants. We start with a dynamical system and backpropagation through time for RNN. Then, we discuss the problems of gradient vanishing and explosion in long-term dependencies. We explain close-to-identity weight matrix, long delays, leaky units, and echo state networks for solving this problem. Then, we introduce LSTM gates and cells, history and variants of LSTM, and Gated Recurrent Units (GRU). Finally, we introduce bidirectional RNN, bidirectional LSTM, and the Embeddings from Language Model (ELMo) network, for processing a sequence in both directions.

研究动机与目标

  • 解释RNN的动力系统基础以及递归如何使序列处理成为可能。
  • 描述通过时间反向传播训练(Backpropagation Through Time)以及长期依赖中的梯度问题。
  • 讨论解决梯度消失/爆炸的方案,包括接近单位矩阵、长延迟、漏泄单元、回声状态网络,以及像LSTM和GRU这样的结构变体。
  • 介绍双向RNN/LSTM以及 Embeddings from Language Model (ELMo) 作为双向序列处理基础。

提出的方法

  • 给出具有跨时间共享参数的RNN形式,以及状态、输入和输出的前向方程(方程式3–6)。
  • 推导BPTT及对输出、状态和所有可学习参数的梯度(方程式8–22)。
  • 通过链式法则分析(方程式24)讨论梯度消失/爆炸,并给出近似单位的权重矩阵、长延迟、漏泄单元和回声状态网络等 remedies。
  • 描述LSTM门控单元及单元,及输入门、忘记门、输出门在带窥孔连接时对记忆的管理作用。
  • 介绍双向变体和ELMo作为双向语言建模基础。
  • 对相关教程和综述的回顾,以将本工作定位于文献中。

实验结果

研究问题

  • RQ1RNN如何通过递归和参数共享来对序列建模?
  • RQ2在训练过程中,RNN中导致梯度消失/爆炸的原因是什么,以及如何缓解这些问题?
  • RQ3哪些架构和机制(LSTM、GRU、ESN、漏泄单元、长延迟)能有效捕捉短期和长期依赖?
  • RQ4双向性和上下文嵌入(ELMo)在序列处理中有何作用?
  • RQ5替代的RNN变体在处理序列数据任务方面的表现如何比较?

主要发现

  • RNN利用递归状态更新来处理序列,使用BPTT进行训练(包括时间展开的反向传播)。
  • 梯度消失和爆炸源于重复的非线性变换,尤其是对于长序列,给长期依赖建模带来挑战。
  • 解决方案包括接近单位或正交的权重矩阵、长时延连接、漏泄单元以及回声状态网络以稳定梯度。
  • LSTM和GRU引入门控机制以调控记忆并缓解梯度问题,从而实现更好的长期依赖学习。
  • 双向RNN和LSTM使得序列可以在两个方向处理,ELMo则展示了用于上下文丰富嵌入的双向语言建模。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。