QUICK REVIEW

[논문 리뷰] The Predictron: End-To-End Learning and Planning

David Silver, Hado van Hasselt|arXiv (Cornell University)|2016. 12. 28.

Reinforcement Learning in Robotics참고 문헌 23인용 수 88

한 줄 요약

Predictron은 상상된 궤적을 통해 개요화된 마르코프 보상 과정(MRP)을 펼쳐내어 가치 함수를 예측함으로써 계획과 학습을 통합하는 엔드 투 엔드로 미분 가능한 딥 러닝 아키텍처이다. 여러 계획 깊이에서 자기 일관성 있는 가치 예측을 학습함으로써 기존의 모델-프리 딥 네트워크보다 더 높은 정확도와 아키텍처 선택에 대한 강건성을 달성하여 미로 및 풀 시뮬레이션 과제에서 뛰어난 성능을 보였다.

ABSTRACT

One of the key challenges of artificial intelligence is to learn models that are effective in the context of planning. In this document we introduce the predictron architecture. The predictron consists of a fully abstract model, represented by a Markov reward process, that can be rolled forward multiple "imagined" planning steps. Each forward pass of the predictron accumulates internal rewards and values over multiple planning depths. The predictron is trained end-to-end so as to make these accumulated values accurately approximate the true value function. We applied the predictron to procedurally generated random mazes and a simulator for the game of pool. The predictron yielded significantly more accurate predictions than conventional deep neural network architectures.

연구 동기 및 목표

모델 기반 강화 학습에서 별도로 훈련된 모델과 계획기 간의 괴리를 해결하기 위해 학습과 계획을 하나의 엔드 투 엔드 프레임워크로 통합한다.
다양한 가짜 보상 함수와 할인 요소를 기반으로 훈련하여 다양한 예측 과제에 일반화할 수 있는 모델을 개발한다.
실제 환경 결과와 일치하는 비현실적인 내부 표현을 학습함으로써 제어되지 않는 환경에서의 가치 예측 정확도를 향상시킨다.
다양한 상상된 계획 단계를 거쳐 보상과 가치를 누적하는 가역적 아키텍처를 통해 강건한 계획을 가능하게 한다.
추상 모델의 엔드 투 엔드 훈련이 복잡한 제어 과제에서 기존의 딥 네트워크보다 뛰어난 성능을 낼 수 있음을 입증한다.

제안 방법

Predic트론은 다중 상상된 계획 단계를 거쳐 보상과 가치 추정치를 누적하는 순환 MRP 코어를 갖춘 딥 네트워크를 사용한다.
단일 프로퍼그레이션 내에서 다수의 계획 깊이에서 가치 예측을 계산하고, 이를 앙상블 출력으로 조합한다.
다양한 계획 깊이에서의 예측 간 자기 일관성을 장려하는 손실을 사용하여 엔드 투 엔드로 모델을 훈련한다.
벡터 값 보상과 대각행렬 할인을 지원하여 가짜 보상 함수를 통해 다수의 예측 과제로 일반화된다.
예측을 동적으로 조합할 수 있도록 계획 단계 간 가중치(λ)를 학습 가능한 주의 유사 구조로 사용하며, 궤적 별로 적응적인 깊이를 허용한다.
내부 모델은 완전히 추상적이다. 상태, 행동, 보상, 할인 공간이 실제 환경과 일치할 필요 없이 가치 예측이 진짜 수익과 일관성이 유지되는 한 된다.

실험 결과

연구 질문

RQ1엔드 투 엔드로 훈련된 추상 모델이 가치 예측 과제에서 기존의 딥 네트워크를 능가할 수 있는가?
RQ2하나의 가역적 아키텍처를 통해 학습과 계획을 통합하면 예측 정확도와 강건성이 향상되는가?
RQ3다양한 가짜 보상 함수로 훈련된 모델이 단일 목표에 과적합되지 않고 여러 예측 과제에 일반화할 수 있는가?
RQ4다양한 계획 깊이에서 자기 일관성 있는 가치 예측이 성능에 어떤 영향을 미치는가?
RQ5비현실적이지만 인간이 이해하기 어려운 추상 내부 표현이라도 실제 환경 결과와 일치하는 정확한 가치 추정치를 도출할 수 있는가?

주요 결과

절차적으로 생성된 미로에서 Predictron은 최신 기술의 모델-프리 딥 네트워크보다 훨씬 더 정확한 가치 예측을 달성했다.
풀 시뮬레이션 도메인에서 Predictron은 50 에피소드 동안 27개의 공을 포켓한 초기 조건을 선택한 반면, 유사한 깊이의 컨volutional 네트워크는 오직 10개였다.
Predictron은 네트워크 깊이와 같은 아키텍처 선택에 대해 훨씬 더 강건했으며, 다양한 변형에서도 일관되게 기존 아키텍처를 능가했다.
다양한 계획 깊이에서 자기 일관성 있는 가치 예측은 추가적인 학습 신호를 제공하여 전체 정확도를 향상시켰다.
픽셀 수준 재구성 기반 모델보다 추상적이고 비픽셀 정밀한 표현을 계획함으로써 더 효과적인 가치 추정이 가능했다.
Predictron이 선택한 롤아웃의 비디오 시연은 복잡한 환경에서의 뛰어난 의사결정 능력을 확인시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.