Skip to main content
QUICK REVIEW

[论文解读] Grid Long Short-Term Memory

Nal Kalchbrenner, Ivo Danihelka|arXiv (Cornell University)|Jan 7, 2016
Image Retrieval and Classification Techniques被引用 179
一句话总结

本文提出网格长短期记忆网络(Grid Long Short-Term Memory,Grid LSTM),一种多维LSTM架构,通过在层间及时空维度上连接单元,实现统一的深度与序列建模。该方法在Wikipedia字符预测任务中达到1.47比特/字符的最先进性能,并在使用新型Reencoder模型的中英翻译任务中超越基于短语的系统。

ABSTRACT

Abstract: This paper introduces Grid Long Short-Term Memory, a network of LSTM cells arranged in a multidimensional grid that can be applied to vectors, sequences or higher dimensional data such as images. The network differs from existing deep LSTM architectures in that the cells are connected between network layers as well as along the spatiotemporal dimensions of the data. The network provides a unified way of using LSTM for both deep and sequential computation. We apply the model to algorithmic tasks such as 15-digit integer addition and sequence memorization, where it is able to significantly outperform the standard LSTM. We then give results for two empirical tasks. We find that 2D Grid LSTM achieves 1.47 bits per character on the Wikipedia character prediction benchmark, which is state-of-the-art among neural approaches. In addition, we use the Grid LSTM to define a novel two-dimensional translation model, the Reencoder, and show that it outperforms a phrase-based reference system on a Chinese-to-English translation task.

研究动机与目标

  • 为解决标准LSTM与深层LSTM架构在处理序列与分层数据结构方面的局限性。
  • 通过将LSTM连接性扩展至层间与时空维度,统一深度学习与序列建模。
  • 提升在需要长期记忆与序列推理的算法任务上的性能。
  • 在如字符预测与神经机器翻译等实证基准上展示最先进结果。

提出的方法

  • 提出一种多维LSTM单元网格,其连接不仅沿序列与时间维度,还跨越网络各层。
  • 引入一种新型架构,其中每个LSTM单元从空间与时间方向的邻近单元接收输入,实现更丰富的特征传播。
  • 通过将输入数据视为结构化网格(如序列作为1D网格,图像作为2D网格),将Grid LSTM应用于序列建模任务。
  • 设计一种名为Reencoder的二维翻译模型,利用Grid LSTM以2D网格结构编码源句。
  • 使用标准的时间反向传播方法进行端到端训练,且网格单元间共享参数。
  • 在Reencoder中引入一种新型解码机制,从2D编码表示中生成翻译结果。

实验结果

研究问题

  • RQ1一种在层间及时空维度上连接单元的多维LSTM架构,是否能在序列任务上超越标准LSTM与深层LSTM模型?
  • RQ2Grid LSTM在需要长期记忆与精确序列建模的算法任务上,性能提升程度如何?
  • RQ3Grid LSTM能否在如Wikipedia字符预测等字符级语言建模基准上达到最先进结果?
  • RQ4Grid LSTM能否有效适应序列到序列任务(如神经机器翻译),并超越基于短语的基线系统?

主要发现

  • 在Wikipedia字符预测基准上,Grid LSTM达到1.47比特/字符的性能,为神经方法中的最先进结果。
  • 在15位整数加法与序列记忆任务中,Grid LSTM显著优于标准LSTM模型。
  • 基于Grid LSTM的新型二维翻译模型Reencoder,在中英翻译任务中优于基于短语的翻译系统。
  • Grid LSTM的多维连接性实现了更优的梯度流动与记忆保持,尤其在长序列与高维任务中表现突出。
  • 该架构在包括序列、图像与结构化序列在内的多种数据类型上展现出强大的泛化能力。
  • 结果证实,将LSTM连接性扩展至时间维度之外,可提升复杂序列任务的建模能力与性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。