Skip to main content
QUICK REVIEW

[论文解读] Using Fast Weights to Attend to the Recent Past

Jimmy Ba, Geoffrey E. Hinton|arXiv (Cornell University)|Oct 20, 2016
Neural Networks and Applications被引用 153
一句话总结

本文将 fast weights 作为一种快速、联想记忆,能够关注最近的隐藏状态,从而在 RNNs 中提高记忆和注意力性能,且层归一化在各任务中提升稳定性和性能。

ABSTRACT

Until recently, research on artificial neural networks was largely restricted to systems with only two types of variable: Neural activities that represent the current or recent input and weights that learn to capture regularities among inputs, outputs and payoffs. There is no good reason for this restriction. Synapses have dynamics at many different time-scales and this suggests that artificial neural networks might benefit from variables that change slower than activities but much faster than the standard weights. These "fast weights" can be used to store temporary memories of the recent past and they provide a neurally plausible way of implementing the type of attention to the past that has recently proved very helpful in sequence-to-sequence models. By using fast weights we can avoid the need to store copies of neural activity patterns.

研究动机与目标

  • 提出需要一种比慢突触权重更快的记忆机制,以在不存储完整激活模式的情况下存储最近历史。
  • 提出一种使用外积更新、随时间衰减以存储最近隐藏状态的快速联想记忆。
  • 证明 fast weights 在联想检索、MNIST 视觉注意、面部表情识别以及带有记忆的强化学习等任务上提升性能。
  • 展示层归一化如何稳定 fast weight 动态并改善学习。
  • 在多项任务中将 fast weights 与标准 RNN 和 LSTM 进行比较,以确立其优势与局限。

提出的方法

  • 定义一个随速率 λ 衰减且由当前隐藏状态 h(t) 的外积更新的快速权重矩阵 A(t): A(t) = λ A(t-1) + η h(t) h(t)^T.
  • 通过两步过程计算下一个隐藏状态 h(t+1):首先是初步的 h0(t+1) = f(W h(t) + C x(t)),然后在内部循环中通过在 S 步中引入 A(t) h_s(t+1) 逐步细化 h。
  • 在内部循环中加入层归一化以稳定动力学:h_{s+1}(t+1) = f(LN[ W h(t) + C x(t) + A(t) h_s(t+1) ])。
  • 使用通过 SGD 学习得到的慢权重 W 和 C,以及用于 A 的快速学习规则,参数为 η 和衰减 λ;使用 Adam 进行小批量训练。
  • 将 fast weights 与 IRNN、标准 LSTM 以及联想 LSTM 在诸如联想检索、带窥视的 MNIST、面部表情识别以及带记忆的强化学习等任务上进行比较。

实验结果

研究问题

  • RQ1一种快速、类突触的记忆是否比传统隐藏状态记忆更高效地存储最近的过去信息?
  • RQ2层归一化是否提高循环网络中 fast weight 记忆的稳定性和性能?
  • RQ3相较于标准 RNN 和 LSTM,fast weights 在联想检索、带窥视的视觉注意、面部表情识别以及基于记忆的强化学习任务上是否提供了明显的准确性或学习速度方面的优势?

主要发现

  • 当递归层大小较小的时候,fast weights 能显著提升联想检索,优于 LSTM 变体并加速收敛。
  • 在带有多级视觉注意的 MNIST 设置中,fast weights 在隐藏单元受限时,达到与 IRNN、LSTM 以及 ConvNet 基线相比具有竞争力甚至更高的准确性。
  • 在人脸表情识别上,fast weights 模型通常超过 IRNN 和 LSTM 基线,尽管在某些情形下 ConvNet 仍可超过多级注意模型。
  • 在带记忆的强化学习(Catch 任务)中,使用 fast weights 的智能体学习速度快于使用 ReLU RNN 或 LSTM 的,在对记忆需求更高的变体上收益更大。
  • 层归一化提升 fast weight 动态的鲁棒性,使得在更宽的学习率和衰减参数范围内也能实现稳定训练。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。