QUICK REVIEW

[论文解读] Reinforcement Learning Neural Turing Machines - Revised

Wojciech Zaremba, Ilya Sutskever|arXiv (Cornell University)|May 4, 2015

Reinforcement Learning in Robotics参考文献 22被引用 118

一句话总结

本文提出强化学习神经图灵机（RL-NTM），采用REINFORCE算法训练神经控制器，与离散外部接口——输入磁带、记忆磁带和输出磁带——交互，实现图灵完备计算。该模型成功解决了序列复制、反转和重复复制等算法任务，但性能高度依赖控制器架构，需通过一种新型数值梯度检查程序进行细致的梯度验证。

ABSTRACT

The Neural Turing Machine (NTM) is more expressive than all previously considered models because of its external memory. It can be viewed as a broader effort to use abstract external Interfaces and to learn a parametric model that interacts with them. The capabilities of a model can be extended by providing it with proper Interfaces that interact with the world. These external Interfaces include memory, a database, a search engine, or a piece of software such as a theorem verifier. Some of these Interfaces are provided by the developers of the model. However, many important existing Interfaces, such as databases and search engines, are discrete. We examine feasibility of learning models to interact with discrete Interfaces. We investigate the following discrete Interfaces: a memory Tape, an input Tape, and an output Tape. We use a Reinforcement Learning algorithm to train a neural network that interacts with such Interfaces to solve simple algorithmic tasks. Our Interfaces are expressive enough to make our model Turing complete.

研究动机与目标

探究训练神经网络与离散、不可微分的外部接口（如内存磁带和输入/输出磁带）交互的可行性。
通过强化学习而非仅反向传播，扩展神经模型的能力，使其能够学习控制离散接口的策略。
证明结合可微分内存写入与离散动作选择（通过REINFORCE）的模型可实现图灵完备性，并解决复杂算法任务。
开发并验证一种针对具有混合可微分与离散组件的模型中基于REINFORCE训练的稳健梯度检查程序。

提出的方法

RL-NTM架构由一个神经控制器组成，该控制器使用REINFORCE算法决定离散动作：移动输入磁带、内存磁带和输出磁带的磁带头，以及是否进行预测。
控制器使用反向传播学习应写入内存和输出磁带的值，而REINFORCE则用于训练磁带头移动和输出决策等离散动作的策略。
使用固定学习率（0.05）和动量（0.9）的随机梯度下降进行训练，RL参数的梯度范数截断为5，基线网络的梯度范数截断为2。
开发并应用了一种数值梯度检查程序，以验证REINFORCE梯度，这对于复杂可微分与离散组件之间的交互至关重要。
内存初始化为35维向量，所有隐藏状态和内存均初始化为零。
控制器使用高斯初始化（σ = 0.1）和0.01的逆温度以稳定策略梯度更新。

实验结果

研究问题

RQ1强化学习能否有效用于训练神经控制器，以与离散外部接口（如内存和输入/输出磁带）交互？
RQ2将可微分权重更新与离散策略学习（通过REINFORCE）结合，是否能使模型解决复杂算法任务（如序列反转和重复复制）？
RQ3模型性能对控制器架构的敏感度如何，特别是在与直接访问或LSTM-based控制器的对比下？
RQ4能否在具有混合可微分与离散组件的基于REINFORCE的模型中可靠地应用梯度检查程序？
RQ5课程学习在多大程度上能提升重复复制和前向-反向任务的训练成功率？

主要发现

当使用直接访问控制器时，RL-NTM成功解决了重复复制、反转和前向-反向任务，但使用LSTM控制器时完全失败。
该模型在需要无界内存和输出决策的任务上取得成功，原则上证明了图灵完备性。
若无课程学习，模型无法解决长度超过极短序列（如长度5）的任务，表明其对训练调度有强烈依赖。
本研究开发的梯度检查程序在调试和验证REINFORCE更新方面被证明至关重要，否则这些更新难以验证。
该模型在长整数加法和排序任务上失败，通常学习到的是特定的、内存密集型启发式方法，而非可泛化的算法。
模型的成功高度依赖于控制器设计，直接访问控制器在所有测试的算法任务中均优于基于LSTM的控制器。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。