QUICK REVIEW

[論文レビュー] On the Turing Completeness of Modern Neural Network Architectures

Jorge Eduardo Pérez Pérez, Javier Marinković|arXiv (Cornell University)|Jan 10, 2019

Neural Networks and Applications参考文献 22被引用数 61

ひとこと要約

本論文は、Transformer および Neural GPU アーキテクチャが、外部メモリを用いず、任意精度仮定の下で内部の密な表現を計算・アクセスする能力に基づいてチューリング完全であることを証明する。さらに、位置エンコーディングの役割を分析し、従来の結果と比較する。

ABSTRACT

Alternatives to recurrent neural networks, in particular, architectures based on attention or convolutions, have been gaining momentum for processing input sequences. In spite of their relevance, the computational properties of these alternatives have not yet been fully explored. We study the computational power of two of the most paradigmatic architectures exemplifying these mechanisms: the Transformer (Vaswani et al., 2017) and the Neural GPU (Kaiser & Sutskever, 2016). We show both models to be Turing complete exclusively based on their capacity to compute and access internal dense representations of the data. In particular, neither the Transformer nor the Neural GPU requires access to an external memory to become Turing complete. Our study also reveals some minimal sets of elements needed to obtain these completeness results.

研究の動機と目的

非再帰的ニューラルネットワーク（注意機構と畳み込み）の計算能力を学習アルゴリズムの観点から研究する動機づけ。
seq-to-seq ニューラルネットワークにおけるチューリング完全性を合理的精度フレームワーク内で正式に定義する。
Transformer および Neural GPU が外部メモリなしで任意の内部精度の下でチューリング完全性を達成することを示す。
これらのアーキテクチャに必要な最小要素を特定する。

提案手法

seq-to-seq recognizers とチューリング完全性の正式定義（埋め込み、シード、最終ベクトル集合）。
encoder–decoder RNN が bounded resources および特定の活性化関数の下でチューリング完全であることを示す（Siegelmann & Sontag の結果）。
注意機構、エンコーダ/デコーダ、位置エンコーディングを用いた Transformer アーキテクチャの定式化、証明における hard attention の使用。
Transformer with positional encodings が Turing complete であることを、Turing machine のシミュレーションによって示す。
Neural GPU を seq-to-seq モデルとして分析し、uniform Neural GPUs が RNN encoder–decoder を模擬することによってチューリング完全であることを証明する。
標準的な Transformer 実装との相違点と任意精度の必要性について議論する。

実験結果

リサーチクエスチョン

RQ1現代の注意機構または畳み込みベースのアーキテクチャは外部メモリなしでチューリング完全性を達成できるか。
RQ2Transformers のチューリング完全性を達成するために必要な最小のアーキテクチャ要素（例：位置エンコーディング、hard attention）は何か。
RQ3Neural GPU の構造は、限られたアーキテクチャ内で RNN ベースの計算の模擬をどのように可能にするか。
RQ4完全性を確立する際の実用的な有限精度ハードウェアと理論的に制約のない精度の間のトレードオフは何か。

主な発見

位置エンコーディングを備えた Transformer ネットワークは、任意精度仮定の下でチューリング完全である。
位置エンコーディングを持たない Transformer は、順序依存性と比率依存性が不変であり、位置情報なしには特定の正規言語を認識できず、力が制限される。
本論文は、特定の密な表現サイズを用いた1つのエンコーダ層と3つのデコーダ層で Transformer がチューリングマシンを模擬できる構成的証明を提供する。
Uniform Neural GPUs は seq-to-seq RNN を模擬することによりチューリング完全である。これにより Neural GPU の計算をクラシックな RNN ベースの recognizers へ結びつける。
結果は正式な証明と共に提示されており（付録に全 Details が含まれる）、有理活性化関数と有理値内部表現に依存している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。