[论文解读] On the Turing Completeness of Modern Neural Network Architectures
本文证明,在具备计算和访问内部密集表示的能力、无需外部内存、并在任意精度假设下,Transformer 与 Neural GPU 架构是图灵完备的。它还分析了位置编码的作用并与先前结果进行比较。
Alternatives to recurrent neural networks, in particular, architectures based on attention or convolutions, have been gaining momentum for processing input sequences. In spite of their relevance, the computational properties of these alternatives have not yet been fully explored. We study the computational power of two of the most paradigmatic architectures exemplifying these mechanisms: the Transformer (Vaswani et al., 2017) and the Neural GPU (Kaiser & Sutskever, 2016). We show both models to be Turing complete exclusively based on their capacity to compute and access internal dense representations of the data. In particular, neither the Transformer nor the Neural GPU requires access to an external memory to become Turing complete. Our study also reveals some minimal sets of elements needed to obtain these completeness results.
研究动机与目标
- 激励研究非循环神经网络架构(注意力机制与卷积)在学习算法中的计算能力。
- 在有理精度框架内为序列到序列神经网络形式化定义图灵完备性。
- 展示 Transformer 和 Neural GPU 在没有外部内存、且内部精度任意的前提下实现图灵完备。
- 指出实现这些架构图灵完备所需的最小要素。
提出的方法
- 提供序列到序列识别器与图灵完备性的形式化定义(嵌入、种子和最终向量集合)。
- 在有界资源和特定激活函数下,证明编码器-解码器 RNNs 是图灵完备的(Siegelmann & Sontag 的结果)。
- 将带有注意力、编码器/解码器和位置编码的 Transformer 架构形式化,在证明中使用硬注意力。
- 通过模拟图灵机,证明带有位置编码的 Transformer 是图灵完备的。
- 将 Neural GPU 作为序列到序列模型进行分析,并证明统一的 Neural GPU 通过模拟 RNN 编码器-解码器实现图灵完备。
- 讨论与标准 Transformer 实现的差异以及任意精度的必要性。
实验结果
研究问题
- RQ1现代的基于注意力或卷积的架构在没有外部内存的情况下能否达到图灵完备性?
- RQ2为了使 Transformer 实现图灵完备,所需的最小架构组件是什么(例如位置编码、硬注意力)?
- RQ3Neural GPU 的结构如何在有界架构内实现对基于 RNN 的计算的模拟?
- RQ4在确立完备性方面,现实的有限精度硬件与理论上不受限制的无限精度之间存在哪些权衡?
主要发现
- 带有位置编码的 Transformer 网络在任意精度假设下是图灵完备的。
- 没有位置编码的 Transformer 在顺序性和比例性方面是不变的,无法识别某些正规语言,说明没有位置信息时能力有限。
- 本文给出一个构造性证明,表明 Transformer 可以通过一个编码器层和三个解码器层、以及特定的密集表示大小,来模拟图灵机。
- 统一的 Neural GPUs 通过模拟序列到序列的 RNN 实现图灵完备,将 Neural GPU 计算与经典的基于 RNN 的识别器联系起来。
- 结果给出正式证明(附录包含全部细节),并依赖于有理激活和有理数值的内部表示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。