QUICK REVIEW

[논문 리뷰] Memory-based control with recurrent neural networks

Nicolas Heess, Jonathan J. Hunt|arXiv (Cornell University)|2015. 12. 14.

Reinforcement Learning in Robotics참고 문헌 33인용 수 219

한 줄 요약

이 논문은 순환 신경망(RNN)을 사용해 백프로파게이션 스루 타임(BPTT)으로 훈련하는 모델리스 강화학습 알고리즘을 확장하여 순환 결정적 정책 기울기(RDPG)와 순환 확률적 가치 기울기(RSVG(0))를 제안한다. 이 방법은 센서 노이즈 통합, 시스템 식별, 장기 기억 작업, 모리스 워터 미로와 같은 부분 관측 제어 문제를 직접 픽셀에서 성공적으로 해결하며, 명시적인 믿음 상태나 수작업으로 설계된 관측 스택이 필요 없이도 RNN이 연속 제어 영역에서 효과적인 기억 기반 제어를 가능하게 한다고 보여준다.

ABSTRACT

Partially observed control problems are a challenging aspect of reinforcement learning. We extend two related, model-free algorithms for continuous control -- deterministic policy gradient and stochastic value gradient -- to solve partially observed domains using recurrent neural networks trained with backpropagation through time. We demonstrate that this approach, coupled with long-short term memory is able to solve a variety of physical control problems exhibiting an assortment of memory requirements. These include the short-term integration of information from noisy sensors and the identification of system parameters, as well as long-term memory problems that require preserving information over many time steps. We also demonstrate success on a combined exploration and memory problem in the form of a simplified version of the well-known Morris water maze task. Finally, we show that our approach can deal with high-dimensional observations by learning directly from pixels. We find that recurrent deterministic and stochastic policies are able to learn similarly good solutions to these tasks, including the water maze where the agent must learn effective search strategies.

연구 동기 및 목표

완전한 상태 관측이 없는 연속 제어 도메인에서 부분 관측 제어 문제를 해결한다.
노이즈가 많은 센서 데이터의 단기 통합 또는 많은 타임스텝에 걸쳐 정보를 장기 유지해야 하는 환경에서 기억 집약적 정책의 효과적인 학습을 가능하게 한다.
모델리스 딥 강화학습에 RNN을 적용하여, 픽셀 관측에서 직접 작동하는 복잡한 기억 기반 과제, 예를 들어 모리스 워터 미로를 해결할 수 있음을 보여준다.
결정적 정책와 확률적 정책 중 어느 것이 부분 관측 설정에서 순환 기억을 보완할 때 더 나은 성능을 보이는지 조사한다.
수작업으로 설계된 관측 스택이나 상태 표현에 의존하지 않고도 고차원 관측, 예를 들어 원시 픽셀에서부터 엔드 투 엔드 학습이 가능한지 탐색한다.

제안 방법

결정적 정책 기울기(DPG)와 확률적 가치 기울기(SVG(0)) 알고리즘을 확장하여 순환 신경망(RNN)을 정책 및 가치 함수 근사기로 사용한다.
시간 차수 오차와 정책 기울기를 기반으로 정책 및 가치 함수 파라미터를 최적화하기 위해 RNN 구성 요소를 백프로파게이션 스루 타임(BPTT)으로 훈련한다.
장기 의존성 학습을 향상시키고 기울기 소실 문제를 완화하기 위해 RNN 아키텍처에 장기 순환 기억(LSTM) 유닛을 통합한다.
독립된 액터-크리틱 아키텍처를 사용하여 액터 네트워크가 순환 은닉 상태를 기반으로 행동을 출력하고, 크리틱 네트워크가 상태-행동 쌍의 Q-값을 평가한다.
사슬 법칙을 통해 RNN 파라미터에 정책 기울기 업데이트 규칙을 적용하여 메모리 능력을 지닌 정책 네트워크의 엔드 투 엔드 훈련을 가능하게 한다.
합성곱 신경망(CNN)과 RNN을 조합하여 시각적 특징을 추출하고 시간적 기억을 유지함으로써 고차원 관측에서 직접 제어를 가능하게 한다.

실험 결과

연구 질문

RQ1순환 신경망은 부분 관측 연속 제어 과제에서 장기 기억을 효과적으로 인코딩하고 활용할 수 있는가?
RQ2RNN을 DPG 및 SVG(0)와 같은 모델리스 정책 기울기 알고리즘에 통합함으로써 노이즈가 많거나 관측이 불완전한 환경에서 견고한 학습이 가능한가?
RQ3물리적 제어 도메인에서 수학적 시스템 식별 및 장기 계획 문제를 포함한 기억 집약적 제어 과제에서 결정적 정책와 확률적 정책의 성능은 어떻게 비교되는가?
RQ4RDPG와 RSVG(0)는 관측 스택이나 수작업으로 설계된 상태 표현에 의존하지 않고 원시 픽셀 입력에서 직접 효과적인 제어 정책을 학습할 수 있는가?
RQ5RNN 기반 정책는 물리적 제어 도메인에서 시스템 식별 및 장기 계획 문제와 같은 복잡한 기억 과제를 어느 정도 해결할 수 있는가?

주요 결과

RDPG와 RSVG(0)는 속도 피드백이 없는 펜듈럼 스윙업, 모르는 막대 길이를 가진 카트폴 스윙업, 지연된 행동 실행이 필요한 장기 기억 작업을 포함한 다양한 부분 관측 제어 문제를 성공적으로 해결했다.
에이전트들은 시간이 지남에 따라 노이즈가 많은 센서 입력을 통합하여 펜듈럼과 카트폴 과제에서 상태 추정을 위한 효과적인 단기 기억을 보여주었다.
간소화된 모리스 워터 미로에서 순환 에이전트는 이후 시도에서 숨겨진 플랫폼에 도달하는 데 걸리는 시간을 크게 줄여 플랫폼 위치를 성공적으로 장기 기억했다.
RDPG는 시각 기반 과제에서 뛰어난 성능을 보였으며, 정적 이미지에서 속도를 추정하고 사라지는 목표를 향해 도달하는 과제에서 목표 위치를 기억하는 데 성공했다.
확률적 정책와 결정적 정책의 성능은 과제 전반에서 유사했으며, 부분 관측 설정에서 확률적 정책가 본질적으로 열세가 아니라는 가정을 도전했다.
이 방법은 고차원 픽셀 관측에서 직접 제어를 가능하게 하여, RNN이 명시적인 관측 스택 없이도 타임스텝 간에 관련 정보를 유지할 수 있음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.