QUICK REVIEW

[論文レビュー] Reinforcement Learning Neural Turing Machines - Revised

Wojciech Zaremba, Ilya Sutskever|arXiv (Cornell University)|May 4, 2015

Reinforcement Learning in Robotics参考文献 22被引用数 118

ひとこと要約

本稿では、強化学習に基づく神経的チューリングマシン（RL-NTM）を提案する。このモデルは、REINFORCEアルゴリズムを用いて、入力テープ、記憶テープ、出力テープといった離散的外部インターフェースと相互作用するニューラルコントローラーを訓練する。これによりチューリング完全な計算が可能となる。モデルはシーケンスのコピー、反転、繰り返しコピーといったアルゴリズム的タスクを正常に解けるが、性能はコントローラーのアーキテクチャに強く依存しており、差分可能でない成分と混合する複雑な構造のため、独自の数値的勾配チェック手順によるきめ細やかな勾配検証が必要となる。

ABSTRACT

The Neural Turing Machine (NTM) is more expressive than all previously considered models because of its external memory. It can be viewed as a broader effort to use abstract external Interfaces and to learn a parametric model that interacts with them. The capabilities of a model can be extended by providing it with proper Interfaces that interact with the world. These external Interfaces include memory, a database, a search engine, or a piece of software such as a theorem verifier. Some of these Interfaces are provided by the developers of the model. However, many important existing Interfaces, such as databases and search engines, are discrete. We examine feasibility of learning models to interact with discrete Interfaces. We investigate the following discrete Interfaces: a memory Tape, an input Tape, and an output Tape. We use a Reinforcement Learning algorithm to train a neural network that interacts with such Interfaces to solve simple algorithmic tasks. Our Interfaces are expressive enough to make our model Turing complete.

研究の動機と目的

入力テープ、記憶テープ、出力テープといった離散的で微分不可能な外部インターフェース（例：メモリテープ）と相互作用するニューラルネットワークの訓練可能性を検討すること。
バックプロパゲーションに加えて強化学習を用いて、離散的インターフェースの制御方策を学習可能にするモデルの能力を拡張すること。
微分可能メモリの書き込みと、REINFORCEによる離散的アクション選択の組み合わせが、チューリング完全性を達成し、複雑なアルゴリズム的タスクを解けるかどうかを実証すること。
微分可能と離散的コンポーネントが混合するモデルにおけるREINFORCEベースの訓練に適した勾配チェック手順の開発と検証を行うこと。

提案手法

RL-NTMアーキテクチャは、REINFORCEを用いて離散的アクション（入力・記憶・出力テープヘッドの移動、予測の有無）を決定するニューラルコントローラーから構成される。
コントローラーは、メモリおよび出力テープへの書き込み値を学習するためにバックプロパゲーションを用いるが、テープヘッドの移動や出力意思決定といった離散的アクションのポリシーはREINFORCEで訓練される。
勾配勾配は固定学習率（0.05）とモーメンタム（0.9）を用いた確率的勾配降下法で最適化され、RLパラメータの勾配ノルムは5、ベースラインネットワークの勾配ノルムは2にクリッピングされる。
微分可能と離散的コンポーネントの複雑な相互作用のため、REINFORCE勾配の検証が困難であることを踏まえ、独自の数値的勾配チェック手順を考案・適用した。
メモリは35次元のベクトルとして初期化され、すべての隠れ状態およびメモリはゼロで初期化される。
コントローラーはガウス分布による初期化（σ = 0.1）と逆温度0.01を用い、ポリシー勾配更新の安定化を図った。

実験結果

リサーチクエスチョン

RQ1強化学習を用いて、メモリテープや入出力テープといった離散的外部インターフェースと相互作用するニューラルコントローラーを効果的に訓練できるか？
RQ2微分可能重み更新と離散的ポリシー学習（REINFORCEによる）を組み合わせることで、シーケンスの反転や繰り返しコピーといった複雑なアルゴリズム的タスクを解けるか？
RQ3モデルの性能はコントローラーのアーキテクチャにどれほど敏感か。特に、直接アクセス型またはLSTMベースのコントローラーとの比較においては？
RQ4微分可能と離散的コンポーネントが混合するREINFORCEベースのモデルに、信頼性のある勾配チェック手順を適用できるか？
RQ5カリキュラム学習は、繰り返しコピーおよび前向き・逆向きタスクの訓練成功にどの程度寄与するか？

主な発見

直接アクセス型コントローラーを用いた場合、RL-NTMは繰り返しコピー、反転、前向き・逆向きタスクを正常に解けるが、LSTMコントローラーを用いた場合は完全に失敗する。
無制限のメモリと出力意思決定を必要とするタスクにおいても成功を収め、理論的にはチューリング完全性を示している。
カリキュラム学習を実施しない場合、モデルは非常に短いシーケンス（例：長さ5）を越えるタスクを解くことができず、訓練スケジュールに強く依存していることが判明した。
本研究で開発した勾配チェック手順は、REINFORCE更新のデバッグと検証に不可欠であった。この更新は、そうでなければ検証が極めて困難であった。
長大な整数の加算やソーティングタスクは、一般化可能なアルゴリズムではなく、一時的で記憶に依存するヒューリスティクスを学習してしまうため、モデルはそれらを解けない。
モデルの成功はコントローラー設計に極めて敏感であり、テストされたすべてのアルゴリズム的タスクにおいて、直接アクセス型コントローラーがLSTMベースのものよりも優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。