Skip to main content
QUICK REVIEW

[论文解读] AntisymmetricRNN: A Dynamical System View on Recurrent Neural Networks

Bo Chang, Minmin Chen|arXiv (Cornell University)|Feb 26, 2019
Neural Networks and Applications被引用 86
一句话总结

本文从常微分方程稳定性框架推导出AntisymmetricRNN,以实现具有良好动态行为且参数更少的长期依赖建模,在长序列任务中优于LSTM。

ABSTRACT

Recurrent neural networks have gained widespread use in modeling sequential data. Learning long-term dependencies using these models remains difficult though, due to exploding or vanishing gradients. In this paper, we draw connections between recurrent networks and ordinary differential equations. A special form of recurrent networks called the AntisymmetricRNN is proposed under this theoretical framework, which is able to capture long-term dependencies thanks to the stability property of its underlying differential equation. Existing approaches to improving RNN trainability often incur significant computation overhead. In comparison, AntisymmetricRNN achieves the same goal by design. We showcase the advantage of this new architecture through extensive simulations and experiments. AntisymmetricRNN exhibits much more predictable dynamics. It outperforms regular LSTM models on tasks requiring long-term memory and matches the performance on tasks where short-term dependencies dominate despite being much simpler.

研究动机与目标

  • 从动力系统的角度动机化 RNN 的可训练性问题(梯度爆炸/消失)。
  • 通过对一个反对称的 ODE 进行离散化,设计具稳定性特性的循环结构。
  • 展示得到的 AntisymmetricRNN 在参数更少的情况下实现长期依赖捕捉。
  • 在长范围序列任务上,与 LSTM及其他基线相比,展示经验性的优势。

提出的方法

  • 将隐藏状态动力学建模为一个 ODE h'(t)=tanh((W_h−W_h^T)h(t)+V_h x(t)+b_h)。
  • 用前向欧拉法离散化,得到 h_t=h_{t-1}+ε tanh((W_h−W_h^T)h_{t-1}+V_h x_t+b_h)。
  • 使用反对称转移矩阵 W_h−W_h^T 以确保雅可比矩阵特征值纯虚数(Re(λ)=0)。
  • 可选地添加扩散项 γI 以确保前向欧拉稳定性:h_t=h_{t-1}+ε tanh((W_h−W_h^T−γI)h_{t-1}+V_h x_t+b_h)。
  • 可选地加入输入门 z_t 及门控:z_t=σ((W_h−W_h^T−γI)h_{t-1}+V_z x_t+b_z) 且 h_t=h_{t-1}+ε z_t∘tanh((W_h−W_h^T−γI)h_{t-1}+V_h x_t+b_h)。

实验结果

研究问题

  • RQ1通过将离散化的 RNN 动力学与稳定/临界的 ODE 行为对齐,是否可以提升 RNN 的可训练性和长期依赖学习?
  • RQ2在循环权重中强制对称/反对称结构是否会产生实部接近零的雅可比矩阵,从而缓解梯度爆炸/消失?
  • RQ3带扩散和门控的 AntisymmetricRNN 变体在长范围序列任务上与标准 LSTM 及其他基线的比较?
  • RQ4扩散项 γ 与门控对稳定性、梯度传播和性能的影响?

主要发现

  • AntisymmetricRNN 展现出稳定、可预测的动态,并在不产生额外大量计算负担的情况下缓解梯度问题。
  • 在逐像素置换的 MNIST 上,AntisymmetricRNN 在 128 单元时达到 98.0% 比 LSTM 的 97.3% 且参数更少;加入门控后,达到 98.8% (128 单元)。
  • 在逐像素 CIFAR-10 上,AntisymmetricRNN 以 256 单元和 36k 参数与 LSTM 相当,而带门控的 AntisymmetricRNN 略微超越 LSTM(62.2% 对 59.7% 的最后一行),参数约为 37k。
  • 在带噪声填充的 CIFAR-10(长距离依赖任务)中,LSTM 无法训练;带不同 γ 的 AntisymmetricRNN 能使端到端雅可比特征值维持在接近单位的量级,从而支持更长序列的训练。
  • 消融研究表明反对称参数化相比非结构化权重能提高性能,尽管除了反对称构造以外可能还存在其他稳定条件。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。