QUICK REVIEW

[논문 리뷰] Efficient Model-Based Deep Reinforcement Learning with Variational State Tabulation

Dane Corneil, Wulfram Gerstner|arXiv (Cornell University)|2018. 02. 12.

Reinforcement Learning in Robotics참고 문헌 5인용 수 27

한 줄 요약

이 논문은 변동형 오토인코더와 미분 가능한 확률적 샘플링을 사용하여 고차원 시각적 관측을 이산적이고 표 형태의 상태 표현으로 매핑하는 Variational State Tabulation (VaST)을 제안한다. 이 표 형태의 공간에서 작은 백업을 통한 우선순위 기반 스위핑을 가능하게 함으로써, VaST는 샘플 효율적이고 모델 기반의 딥 강화학습을 실현하며, 환경 변화에 빠르게 적응하고 3D 내비게이션 및 Atari Pong에서 잠재 학습을 가능하게 한다.

ABSTRACT

Modern reinforcement learning algorithms reach super-human performance on many board and video games, but they are sample inefficient, i.e. they typically require significantly more playing experience than humans to reach an equal performance level. To improve sample efficiency, an agent may build a model of the environment and use planning methods to update its policy. In this article we introduce Variational State Tabulation (VaST), which maps an environment with a high-dimensional state space (e.g. the space of visual inputs) to an abstract tabular model. Prioritized sweeping with small backups, a highly efficient planning method, can then be used to update state-action values. We show how VaST can rapidly learn to maximize reward in tasks like 3D navigation and efficiently adapt to sudden changes in rewards or transition probabilities.

연구 동기 및 목표

고차원 상태 공간에서의 딥 강화학습의 샘플 비효율성을 해결하기 위해 표 형태의 표현에서 효율적인 계획 수단을 제공한다.
지속적 또는 고차원 관측에서 유사한 상태 간에 일반화하지 못하는 기존의 모델 기반 RL 방법의 한계를 극복한다.
원시 관측에서 압축되고 일반화 가능한 상태 표현을 학습함으로써 환경 변화 후 빠른 정책 적응을 가능하게 한다.
미분 가능하고 비지도 상태 이산화를 통해 딥 러닝의 일반화 능력과 모델 기반 계획(예: 우선순위 기반 스위핑)의 장점을 통합한다.
보상에 종속되지 않는 신경망이 효율적인 가치 함수 업데이트와 전이 학습을 지원하는 유용한 상태 추상화를 학습할 수 있음을 입증한다.

제안 방법

고차원 관측(예: 이미지)에서 이산 잠재 상태로의 미분 가능하고 확률적인 매핑을 학습하기 위해 콘크리트 리파라미터라이제이션을 사용한 변동형 오토인코더(VAE)를 사용한다.
잠재 상태가 환경의 표 형태 추상화를 나타내는 하이브리드 인공신경망-숨은 마르코프 모델(ANN-HMM)로 상태 집계기(스테이트 어그리게이터)를 훈련한다.
공유된 상태가 다양한 경로에서 공통으로 나타나는 점을 활용하여, 표 형태 상태 공간에서 Q-값을 효율적으로 업데이트하기 위해 작은 백업을 통한 우선순위 기반 스위핑을 적용한다.
기존의 경험에서 유사한 상태로 일반화하기 위해, 저장된 수익을 기반으로 한 k-최근접 이웃을 사용하여 새로운 상태의 Q-값을 추정한다.
상태 표현 학습과 보상 예측을 분리함으로써, 훈련 중에 모델이 순수하게 비지도 학습이 되고 보상 조정에 영향을 받지 않도록 한다.
지속적인 환경 구조 인식 상태 테이블을 유지함으로써 전이 학습과 잠재 학습을 가능하게 하며, 이는 공간적 및 시간적 관계를 포착한다.

실험 결과

연구 질문

RQ1딥 신경망은 고차원 시각적 입력에서 효율적인 모델 기반 계획을 가능하게 하는 이산적이고 일반화 가능한 상태 표현을 학습할 수 있는가?
RQ2학습된 표 형태 상태 공간에서 우선순위 기반 스위핑을 사용할 경우, 표준 딥 Q-네트워크나 모델 프리 없는 에피소딕 제어 대비 샘플 효율성이 향상되는가?
RQ3사전에 학습된 상태 추상화를 활용하여 보상 또는 동역학이 갑작스럽게 변화한 후에 에이전트가 정책을 신속하게 적응시킬 수 있는가?
RQ4전통적인 표 형태 강화학습 대비 이 방법이 잠재 학습(즉각적인 보상 없이 환경의 구조를 학습하는 것)을 어느 정도 지원하는가?
RQ5복잡한 3D 내비게이션 및 Atari 환경에서 VaST의 성능은 모델 프리 및 모델 기반 기준선과 비교해 어떻게 되는가?

주요 결과

3D 내비게이션 작업에서 VaST는 초기 학습 단계에서 모델 프리 에피소딕 제어(MFEC)와 딥 Q-네트워크(DQN)를 모두 앞서며 더 빠른 수렴과 높은 샘플 효율성을 달성했다.
에이전트는 가치 업데이트를 서로 다른 경로에서 공유된 상태를 통해 전파할 수 있도록 하는 압축되고 일반화 가능한 상태 표현을 학습했으며, 보상 지연 상황에서도 성능을 유지를 하였다.
3D 내비게이션 환경에서 VaST는 새로운 경로나 차단된 길이 생긴 후에도 이전에 학습한 상태-행동 값들을 재사용함으로써 정책을 신속하게 적응시켰다.
Atari 게임 Pong에서 VaST는 강력한 성능을 보였으며, 이는 이론이 내비게이션 작업 외에도 일반화됨을 보여주지만, 다른 Atari 게임에서는 성능이 일관되지 않았다.
VaST는 잠재 학습을 가능하게 했으며, 보상이 없을 때에도 에이전트가 환경의 구조(예: 미로의 구조)를 구축하는 데 성공했으며, 톨먼의 고전적 실험과 일치하였다.
보상에 종속되지 않는 상태 인코더 훈련 방식 덕분에 안정적인 비지도 사전 훈련이 가능했고, 이는 후속 정책 학습과 작업 간 전이 가능성 향상에 기여했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.