Skip to main content
QUICK REVIEW

[论文解读] Memory Augmented Neural Networks with Wormhole Connections

Çaǧlar Gülçehre, Sarath Chandar|arXiv (Cornell University)|Jan 30, 2017
Topic Modeling参考文献 8被引用 44
一句话总结

本文提出 TARDIS,一种通过外部记忆中的离散虫洞连接来缓解长序列中梯度消失问题的内存增强神经网络。通过在内存饱和后使用绑定的读/写头存储和检索过去的隐藏状态,TARDIS 实现了高效的长期依赖学习,在算法任务上达到最先进性能,并在 SNLI 和顺序 MNIST 等真实世界 NLP 基准测试中取得具有竞争力的结果。

ABSTRACT

Recent empirical results on long-term dependency tasks have shown that neural networks augmented with an external memory can learn the long-term dependency tasks more easily and achieve better generalization than vanilla recurrent neural networks (RNN). We suggest that memory augmented neural networks can reduce the effects of vanishing gradients by creating shortcut (or wormhole) connections. Based on this observation, we propose a novel memory augmented neural network model called TARDIS (Temporal Automatic Relation Discovery in Sequences). The controller of TARDIS can store a selective set of embeddings of its own previous hidden states into an external memory and revisit them as and when needed. For TARDIS, memory acts as a storage for wormhole connections to the past to propagate the gradients more effectively and it helps to learn the temporal dependencies. The memory structure of TARDIS has similarities to both Neural Turing Machines (NTM) and Dynamic Neural Turing Machines (D-NTM), but both read and write operations of TARDIS are simpler and more efficient. We use discrete addressing for read/write operations which helps to substantially to reduce the vanishing gradient problem with very long sequences. Read and write operations in TARDIS are tied with a heuristic once the memory becomes full, and this makes the learning problem simpler when compared to NTM or D-NTM type of architectures. We provide a detailed analysis on the gradient propagation in general for MANNs. We evaluate our models on different long-term dependency tasks and report competitive results in all of them.

研究动机与目标

  • 解决循环网络在长序列建模过程中出现的梯度消失问题。
  • 通过实现对过去隐藏状态的高效访问,提升对训练时未见的更长序列的泛化能力。
  • 通过使用离散寻址和绑定的读/写操作,开发一种比现有 MANN 模型(如 NTM 和 D-NTM)更简单、更高效的内存机制。
  • 证明外部内存可以创建有效的“虫洞”连接,从而在时间维度上实现梯度流动的捷径。
  • 在算法任务和真实世界 NLP 基准测试上评估模型,以验证其鲁棒性和泛化能力。

提出的方法

  • 提出 TARDIS,一种具有外部记忆矩阵的内存增强 RNN,用于存储控制器隐藏状态。
  • 使用离散寻址进行读/写操作,以避免来自连续注意力机制的梯度扩散。
  • 在内存填满后绑定读/写头,使控制器能够通过启发式方法而非学习到的路由机制重新访问存储状态。
  • 按顺序将序列隐藏状态存入记忆槽,直到存满,然后使用绑定的头部进行选择性检索。
  • 采用 Gumbel-Softmax 和带辅助损失的 REINFORCE 方法,实现对离散内存操作的可微训练。
  • 将内存访问整合为一种可学习机制,使控制器能够动态访问过去表示,从而在时间维度上形成“虫洞”连接。

实验结果

研究问题

  • RQ1在 MANN 中,外部记忆是否可以通过在时间维度上创建捷径连接来缓解梯度消失问题?
  • RQ2与连续寻址相比,离散记忆寻址在梯度稳定性和训练效率方面表现如何?
  • RQ3在内存增强 RNN 中,一种简单且绑定的读/写机制是否能在长期依赖任务上超越 NTM 和 D-NTM 等复杂架构?
  • RQ4TARDIS 在泛化到比训练时更长的序列方面能达到何种程度?
  • RQ5使用类似虫洞的内存连接是否能提升 TARDIS 在真实世界 NLP 任务(如 SNLI 和顺序 MNIST)上的性能?

主要发现

  • TARDIS 在使用 Gumbel-Softmax 和带辅助损失的 REINFORCE 方法时,均以 100% 的成功率完成复制任务和关联回忆任务。
  • 在顺序 MNIST 任务中,TARDIS 在处理 15 位数字时达到近乎完美的性能,优于标准 LSTM,并表现出稳定的收敛性。
  • 在 SNLI 基准测试中,TARDIS 使用 Gumbel-Softmax 方法达到 84.3% 的测试准确率,超过基线 LSTM 和注意力机制模型。
  • 使用 Gumbel-Softmax 的 TARDIS 比 REINFORCE 变体收敛更快,表明训练稳定性与效率得到提升。
  • 理论与实证分析均证实,来自内存的虫洞连接可有效减少梯度消失,尤其在长序列中效果显著。
  • 该模型在泛化到比训练时更长的序列方面表现出色,展现出强大的外推能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。