QUICK REVIEW

[論文レビュー] Neural Turing Machines

Alex Graves, Greg Wayne|arXiv (Cornell University)|Oct 20, 2014

Neural Networks and Applications参考文献 40被引用数 108

ひとこと要約

この論文は、微分可能な外部記憶と注目メカニズムに基づく読み書き機構を備えた微分可能なニューラルネットワークアーキテクチャ、Neural Turing Machine (NTM) を導入する。このアーキテクチャにより、勾配降下法を用いたエンド・ツー・エンドの学習が可能となり、コピー、ソート、関連記憶の再現といった単純なアルゴリズムを入出力例から学習・実行できる。NTMは、アルゴリズム的タスクにおいて標準的なRNNを上回る性能を発揮する。

ABSTRACT

We extend the capabilities of neural networks by coupling them to external memory resources, which they can interact with by attentional processes. The combined system is analogous to a Turing Machine or Von Neumann architecture but is differentiable end-to-end, allowing it to be efficiently trained with gradient descent. Preliminary results demonstrate that Neural Turing Machines can infer simple algorithms such as copying, sorting, and associative recall from input and output examples.

研究の動機と目的

入出力の例示から単純なアルゴリズムを学習・実行できるニューラルネットワークアーキテクチャの開発を目的とする。
外部記憶と論理的フロー制御を必要とする複雑なデータ変換を処理できないという標準的RNNの限界を克服することを目的とする。
チューリングマシンと作業記憶を模倣した微分可能でエンド・ツー・エンドで学習可能なシステムの構築を目的とし、勾配ベースのアルゴリズム的手順の学習を可能にする。
ニューラルネットワークが構造的かつアドレス指定可能な方法で記憶を使用できるかどうかを調査することを目的とする。
学習済みの記憶操作を用いて、ソートや関連記憶の再現といったタスクを訓練データを超えて一般化して実行できることを示すこと。

提案手法

NTMは、注目メカニズムを用いて読み書き可能な微分可能なメモリ行列を統合する。
コントローラー・ネットワーク（フィードフォワードまたはLSTMベース）が、特定のメモリ領域を選択するための読み取りおよび書き込みの注目ベクトルを生成する。
読み取り操作は、コンテンツベースおよび位置ベースのアドレッシングに基づいて、メモリベクトルの重み付き和を計算する。
書き込み操作は、学習可能な書き込みゲートを備えた微分可能な読み取り・変更・書き込みプロセスを用いて、メモリ領域を更新する。
複数の読み取りおよび書き込みヘッドをサポートしており、複雑なタスクのためのメモリへの並列アクセスを可能にする。
全システムは、勾配クリッピングとRMSProp最適化を用いた誤差逆伝搬法によりエンド・ツー・エンドで訓練される。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークは、外部の微分可能な記憶を用いて、コピーおよびソートといったアルゴリズム的タスクを学習できるか？
RQ2NTMは、訓練時に見られなかった長さのシーケンスに対しても一般化できるか。これは真のアルゴリズム的学習の兆候である。
RQ3注目ベースのアドレッシングを用いることで、標準的なRNNと比較して、記憶集約的タスクでの性能がどのように向上するか？
RQ4明示的なソーティングメカニズムの監視なしに、NTMは優先度値に基づいてシーケンスをソートする能力を学習できるか？
RQ5NTMの記憶使用は、二分ヒープのような既知のデータ構造を実装していると解釈できる程度にどの程度まで達しているか？

主な発見

NTMは、さまざまな長さのシーケンスのコピーを成功裏に学習し、訓練時のシーケンス長を超えて一般化した。
関連記憶タスクにおいて、NTMは訓練中に見られなかったテストシーケンスにおいても高い正確性を達成し、頑健な一般化を示した。
優先度ソートタスクでは、入力の優先度の線形関数に非常に近いメモリ書き込みパターンを用いて解決され、ヒープに類似した構造を学習したと示唆された。
LSTMコントローラーを搭載したNTMは、フィードフォワードコントローラーおよび標準的なLSTMネットワークよりも、特に複数の読み取り/書き込みヘッドを用いた場合に優れた性能を示した。
8つの読み取り/書き込みヘッドとLSTMコントローラーを備えたNTMは、優先度ソートタスクでほぼ完璧な性能を達成し、記憶アドレッシングの効果的な使用を示した。
NTMのパラメータ数はメモリサイズに比例して増加せず、標準的なRNNとは異なり、大規模なメモリ行列に対してもスケーラブルである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。