QUICK REVIEW

[论文解读] A Gentle Tutorial of Recurrent Neural Network with Error Backpropagation

Gang Chen|arXiv (Cornell University)|Oct 8, 2016

Neural Networks and Applications参考文献 3被引用 96

一句话总结

本文提供了一篇关于通过时间反向传播（BPTT）训练循环神经网络（RNN）的详细且易于理解的教程，重点阐述RNN中的误差反向传播以及长短期记忆（LSTM）单元。文章推导了跨时间步共享参数的梯度，并通过时间展开的方法解释了其计算方式，为语音识别和手写识别等序列建模任务提供了清晰的基础。

ABSTRACT

We describe recurrent neural networks (RNNs), which have attracted great attention on sequential tasks, such as handwriting recognition, speech recognition and image to text. However, compared to general feedforward neural networks, RNNs have feedback loops, which makes it a little hard to understand the backpropagation step. Thus, we focus on basics, especially the error backpropagation to compute gradients with respect to model parameters. Further, we go into detail on how error backpropagation algorithm is applied on long short-term memory (LSTM) by unfolding the memory unit.

研究动机与目标

阐明循环神经网络中的反向传播过程，该过程常因反馈回路而被误解。
逐步推导RNN参数的误差梯度，特别是跨时间步共享权重的梯度。
通过时间展开记忆单元，将分析扩展至长短期记忆（LSTM）网络，推导所有门控的梯度。
使研究人员和实践者能够使用随机梯度下降等标准优化方法实现并理解RNN的训练过程。

提出的方法

使用通过时间反向传播（BPTT）方法，通过在时间步上展开RNN来计算梯度。
利用Softmax交叉熵目标函数，推导输出层权重 $W_{hz}$ 和偏置 $b_z$ 的损失梯度。
应用链式法则，通过从 $t$ 到 $0$ 逐层反向传播误差，计算循环权重 $W_{hh}$ 的梯度。
将LSTM单元在时间上展开，利用递归依赖链计算所有门（输入门、遗忘门、输出门、候选门）的梯度。
推导tanh和Softmax激活函数的梯度，这些梯度在误差传播中至关重要。
使用链式法则将误差反向传播至隐藏状态，通过时间步上的累积实现所有参数梯度的更新。

实验结果

研究问题

RQ1尽管存在循环反馈回路，如何系统性地应用误差反向传播于RNN中？
RQ2在可变长度序列中，计算RNN共享权重梯度的正确方法是什么？
RQ3与标准RNN相比，将反向传播过程应用于LSTM单元时有何不同？
RQ4RNN和LSTM输出层中使用的tanh和Softmax函数的解析梯度是什么？
RQ5如何通过链式法则和时间展开计算，推导出所有LSTM门参数的梯度？

主要发现

损失函数关于输出logits $\alpha_t$ 的梯度为 $-(y_t - z_t)$，这简化了最终层的反向传播过程。
共享权重 $W_{hz}$ 的梯度通过在所有时间步上求和计算，确保参数共享具有良好的泛化能力。
对于循环权重 $W_{hh}$，梯度通过从 $t+1$ 递归回 $t=0$ 的偏导数链计算，采用BPTT方法。
LSTM单元状态 $c_t$ 的梯度通过递归反向传播链式法则计算，未来时间步的误差通过遗忘门传播。
隐藏状态 $h_t$ 的梯度通过聚合所有未来时间步的贡献计算，从而实现通过反向传播对所有参数的完整更新。
本文推导出tanh函数的解析梯度为 $1 - \tanh^2(x)$，这对于RNN和LSTM中高效误差传播至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。