QUICK REVIEW

[논문 리뷰] Reinforcement Learning Neural Turing Machines

Wojciech Zaremba, Ilya Sutskever|arXiv (Cornell University)|2015. 05. 04.

Reinforcement Learning in Robotics참고 문헌 16인용 수 98

한 줄 요약

이 논문은 정책 그래เดียน트 학습(Reinforce)을 메모리 접근에, 백프로파게이션을 메모리 쓰기 위해 사용하는 강화학습 신경 터미널 기계(RL-NTM)를 제안한다. 이는 효율적이고 일정 시간 내의 메모리 접근을 가능하게 하며, 유한한 실행 시간을 갖는 프로그램을 넘어 무한한 실행 시간을 가진 프로그램을 학습할 수 있다. RL-NTM는 완전히 미분 가능한 NTM이 도달하지 못한 알고리즘 작업을 성공적으로 해결할 수 있다.

ABSTRACT

The expressive power of a machine learning model is closely related to the number of sequential computational steps it can learn. For example, Deep Neural Networks have been more successful than shallow networks because they can perform a greater number of sequential computational steps (each highly parallel). The Neural Turing Machine (NTM) [8] is a model that can compactly express an even greater number of sequential computational steps, so it is even more powerful than a DNN. Its memory addressing operations are designed to be differentiable; thus the NTM can be trained with backpropagation. While differentiable memory is relatively easy to implement and train, it necessitates accessing the entire memory content at each computational step. This makes it difficult to implement a fast NTM. In this work, we use the Re inforce algorithm to learn where to access the memory, while using backpropagation to learn what to write to the memory. We call this model the RL-NTM. Reinforce allows our model to access a constant number of memory cells at each computational step, so its implementation can be faster. The RL-NTM is the first mo del that can, in principle, learn programs of unbounded running time. We successfully trained the RL-NTM to solve a number of algorithmic tasks that are simpler than the ones solvable by the fully differentiable NTM. As the RL-NTM is a fairly intricate model, we needed a method for verifying the correctness of our implementation. To do so, we developed a simple technique for numerically checking arbitrary implementations of models that use Reinforce, which may be of independent interest.

연구 동기 및 목표

모든 메모리 셀을 각 단계에서 접근해야 하는 완전히 미분 가능한 신경 터미널 기계(NTM)의 비효율성을 해결하기 위해.
메모리 접근을 미분 가능한 최적화에서 분리함으로써, 모델이 무한한 실행 시간을 가진 프로그램을 학습할 수 있도록 하기 위해.
메모리 접근에 대해 강화학습을, 메모리 쓰기에 대해 백프로파게이션을 사용하는 훈련 방법을 개발하기 위해.
Reinforce 알고리즘을 활용한 복잡한 모델의 검증 기법을 개발하기 위해. 이 기법은 이 특정 모델 외에도 적용 가능하다.

제안 방법

메모리 위치를 읽고 쓰는 데 사용할 확률적 정책을 학습하기 위해 Reinforce 알고리즘을 사용한다.
시간에 따라 역전파(backpropagation through time)를 사용하여 네트워크의 가중치와 쓰기 동작을 훈련함으로써, 학습을 위한 기울기 흐름을 보장한다.
각 단계에서 메모리 접근을 일정 수의 셀로 제한함으로써, 전체 메모리 접근에 비해 계산 효율성을 크게 향상시킨다.
Reinforce 알고리즘을 사용해 훈련된 모델의 구현을 검증하기 위한 수치적 검증 기법을 도입한다.
메모리 접근은 정책 기반 학습(Reinforce를 통해), 메모리 콘텐츠 업데이트는 미분 가능한 방식(백프로파게이션을 통해)으로 구성된 하이브리드 훈련 제도를 설계한다.
순차적 추론이 필요한 알고리즘 작업, 예를 들어 시퀀스 복사 및 정렬에 모델을 적용한다.

실험 결과

연구 질문

RQ1Reinforce와 백프로파게이션의 하이브리드 접근 방식으로 훈련된 모델이, 완전히 미분 가능한 NTM보다 더 효율적으로 복잡한 알고리즘 작업을 수행할 수 있는가?
RQ2메모리 접근 학습을 미분 가능한 최적화에서 분리함으로써, 모델이 무한한 실행 시간을 가진 프로그램으로 확장될 수 있는가?
RQ3제안된 수치적 검증 기법이 Reinforce 기반 모델의 구현을 신뢰성 있게 검증할 수 있는가?
RQ4RL-NTM의 성능은 순차적 계산이 필요한 작업에서 원본 NTM과 비교해 어떻게 다른가?
RQ5일정 시간 내의 메모리 접근이 훈련 속도와 모델 확장성에 어떤 영향을 미치는가?

주요 결과

RL-NTM는 완전히 미분 가능한 NTM이 해결할 수 없는 더 복잡한 알고리즘 작업, 예를 들어 시퀀스 복사 및 정렬 작업을 성공적으로 학습한다.
각 단계에서 메모리 접근을 일정 수의 셀로 제한함으로써, 원본 NTM에 비해 훨씬 빠른 추론 및 훈련 속도를 달성한다.
비미분 가능한 정책 기반 메모리 접근 메커니즘 덕분에, 모델은 원칙적으로 무한한 실행 시간을 가진 프로그램을 학습할 수 있다.
제안된 수치적 검증 기법은 RL-NTM의 구현을 성공적으로 검증하였으며, 이는 다른 Reinforce 기반 모델에도 일반적으로 적용 가능함을 보여준다.
Reinforce를 통한 접근 학습과 백프로파게이션을 통한 쓰기 학습을 조합한 하이브리드 훈련 접근 방식은 복잡한 순차적 행동을 효과적으로 학습하는 데 성공한다.
RL-NTM는 계산 효율성 측면에서 표준 NTM을 능가하면서도, 알고리즘 작업에서 강력한 일반화 능력을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.