Skip to main content
QUICK REVIEW

[论文解读] Recurrent neural networks: vanishing and exploding gradients are not the end of the story

Nicolas Zucchet, Antonio Orvieto|arXiv (Cornell University)|May 31, 2024
Neural Networks and Applications被引用 12
一句话总结

论文表明,随着RNN记忆增长,参数变化导致输出对变化的敏感性增加,揭示了记忆诅咒超越梯度消失/爆炸,并强调对角架构和归一化/重新参数化作为缓解策略。

ABSTRACT

Recurrent neural networks (RNNs) notoriously struggle to learn long-term memories, primarily due to vanishing and exploding gradients. The recent success of state-space models (SSMs), a subclass of RNNs, to overcome such difficulties challenges our theoretical understanding. In this paper, we delve into the optimization challenges of RNNs and discover that, as the memory of a network increases, changes in its parameters result in increasingly large output variations, making gradient-based learning highly sensitive, even without exploding gradients. Our analysis further reveals the importance of the element-wise recurrence design pattern combined with careful parametrizations in mitigating this effect. This feature is present in SSMs, as well as in other architectures, such as LSTMs. Overall, our insights provide a new explanation for some of the difficulties in gradient-based learning of RNNs and why some architectures perform better than others.

研究动机与目标

  • 研究RNN记忆更长为何在动力学稳定的情况下仍导致对参数变化的敏感性增加。
  • 分析线性对角RNN的信号传播以量化记忆增长时的前向和后向异常放大。
  • 展示状态空间模型与门控结构如何缓解记忆诅咒。
  • 通过师生任务演示对角化和自适应优化对学习长距离相关性的影响。

提出的方法

  • 将RNN的递归更新和反向传播方程式形式化,以在RNN中分离偏导数和全导数。
  • 推导前向隐藏状态方差作为记忆参数和输入自相关的函数,以显示前向放大。
  • 推导后向梯度方差和 Hessian 结构,以说明后向敏感性和优化困难。
  • 通过特征分解将分析扩展到非对角线线性RNN,以比较参数敏感性。
  • 提出归一化和重新参数化策略,以在不同记忆尺度上稳定前向与后向传播。
  • 在师生设定中比较对角复杂值RNN、LRU和全连接RNN,以评估优化景观。

实验结果

研究问题

  • RQ1随着RNN记忆增加,尽管动力学稳定,隐藏状态对参数变化的敏感性如何?
  • RQ2归一化和重新参数化是否能降低记忆引发的梯度敏感性,对角结构模型与全连接模型相比有何差异?
  • RQ3当记忆长度增加时,像SSM和LSTM这样的架构为何有助于信号传播和优化?
  • RQ4自适应学习率在处理与记忆相关的 Hessian 曲率时扮演何种角色?

主要发现

  • 隐藏状态方差和梯度敏感性在记忆增长时爆炸,即使谱半径接近或低于一。
  • 前向和后向信号传播在更长记忆下恶化,输入相关性越高时尤甚,这被记忆诅咒所致。
  • 对角/复值和门控架构,以及输入归一化和特征值再参数化,能显著缓解记忆引发的不稳定。
  • LRU 和 SSM 在长期记忆师生任务中优于全连接线性RNN,且参数量更少。
  • 自适应优化器在特征值与规范方向对齐时受益于结构化 Hessian,从而实现更大的有效学习率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。