[论文解读] Scaling Memory-Augmented Neural Networks with Sparse Reads and Writes
本文提出稀疏访问记忆(Sparse Access Memory, SAM),一种可微分的增强记忆神经网络,通过稀疏读写操作实现每条记忆操作的最优 O(1) 空间与时间复杂度。SAM 在扩展至 100,000 步任务时,相比密集模型实现 1,000 倍的训练速度提升与 3,000 倍的内存减少,同时在合成任务与真实世界任务(包括 Omniglot 一次学习)中保持数据效率与性能表现。
Neural networks augmented with external memory have the ability to learn algorithmic solutions to complex tasks. These models appear promising for applications such as language modeling and machine translation. However, they scale poorly in both space and time as the amount of memory grows --- limiting their applicability to real-world domains. Here, we present an end-to-end differentiable memory access scheme, which we call Sparse Access Memory (SAM), that retains the representational power of the original approaches whilst training efficiently with very large memories. We show that SAM achieves asymptotic lower bounds in space and time complexity, and find that an implementation runs $1,\!000 imes$ faster and with $3,\!000 imes$ less physical memory than non-sparse models. SAM learns with comparable data efficiency to existing models on a range of synthetic tasks and one-shot Omniglot character recognition, and can scale to tasks requiring $100,\!000$s of time steps and memories. As well, we show how our approach can be adapted for models that maintain temporal associations between memories, as with the recently introduced Differentiable Neural Computer.
研究动机与目标
- 解决随着记忆规模增大,增强记忆神经网络(MANNs)在空间与时间上的可扩展性差的问题。
- 克服如神经图灵机(NTM)与记忆网络等模型中平滑读写操作带来的线性计算开销。
- 实现对超大外部记忆的高效训练,使 MANNs 在真实世界应用中更具可行性。
- 在大幅降低内存与时间成本的同时,保持端到端可微分性与数据效率。
- 在长序列与大内存容量(如 100,000 个时间步与 64,000 个记忆槽)上实现可扩展性。
提出的方法
- 提出一种稀疏访问机制,即在每个时间步仅对记忆位置的一个小而动态的子集进行阈值化修改。
- 使用高效数据结构——特别是 k-d 树与局部敏感哈希(LSH)——以加速读操作中的内容寻址。
- 实现一种可微分的稀疏写操作,仅更新少量记忆槽,避免反向传播过程中对完整内存的复制。
- 将稀疏访问方案集成至可微分控制器(如 LSTM)中,通过时间反向传播(BPTT)实现端到端训练。
- 应用课程学习方法,将 Omniglot 一次分类任务扩展至更长的序列长度。
- 将该方法适配至可微分神经计算机(DNC),构建稀疏 DNC(SDNC),实现更高的效率与性能。
实验结果
研究问题
- RQ1增强记忆神经网络是否能在扩展至超大记忆规模时,仍保持数据效率与性能?
- RQ2在可微分框架中,稀疏记忆访问操作是否能实现每条操作的最优 O(1) 时间与空间复杂度?
- RQ3使用 k-d 树与 LSH 等高效数据结构是否能将前向传播时间降低至低于记忆规模的线性复杂度?
- RQ4稀疏访问是否能实现在长序列(如 100,000 个时间步)上的训练,且内存与时间开销极低?
- RQ5该稀疏访问方案是否可推广至其他可微分记忆架构(如 DNC)?
主要发现
- 当扩展至 64,000 个记忆槽时,SAM 相比密集模型将内存使用量减少高达 3,000 倍,训练时间减少高达 1,000 倍。
- SAM 实现了每条记忆操作的渐近 O(1) 时间与空间复杂度,计算复杂度达到最优。
- 在 Omniglot 一次分类任务中,SAM 在 100 个字符上误差低于 0.2,优于密集模型(约 0.4 误差),展现出更优的泛化能力。
- SAM 在通过课程学习训练更长序列时,仍保持与现有 MANNs 相当的数据效率。
- 稀疏 DNC(SDNC)在 2,000 个记忆槽时比密集 DNC 快逾 400 倍,并在 Babi 任务上实现了无需监督记忆访问的最先进性能。
- 该模型在高达 5,000 步长的序列上泛化良好,即使仅在约 130 步的序列上进行训练,也表明其学习到了可泛化的表征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。