QUICK REVIEW

[논문 리뷰] On Improving Deep Reinforcement Learning for POMDPs

Pengfei Zhu, Xin Li|arXiv (Cornell University)|2017. 04. 26.

Elevator Systems and Control참고 문헌 16인용 수 80

한 줄 요약

ADRQN은 LSTM으로 처리된 행동-관찰 페어를 사용하여 부분적으로 관측 가능한 환경에서 심층 RL을 개선하고 flickering/부분 관찰 설정에서 DRQN 및 DDRQN을 능가합니다

ABSTRACT

Deep Reinforcement Learning (RL) recently emerged as one of the most competitive approaches for learning in sequential decision making problems with fully observable environments, e.g., computer Go. However, very little work has been done in deep RL to handle partially observable environments. We propose a new architecture called Action-specific Deep Recurrent Q-Network (ADRQN) to enhance learning performance in partially observable domains. Actions are encoded by a fully connected layer and coupled with a convolutional observation to form an action-observation pair. The time series of action-observation pairs are then integrated by an LSTM layer that learns latent states based on which a fully connected layer computes Q-values as in conventional Deep Q-Networks (DQNs). We demonstrate the effectiveness of our new architecture in several partially observable domains, including flickering Atari games.

연구 동기 및 목표

상태가 완전히 관찰되지 않는 부분적으로 관측 가능한 환경에서 견고한 학습을 촉진한다.
더 나은 신념 추정을 위해 이력에 행동을 통합하는 모델-프리 아키텍처를 제안한다.
Q-값 추정을 이끄는 행동-관찰 시퀀스를 통합하기 위해 LSTM을 활용한다.
전체 관측 및 부분 관측에서 Atari 2600 게임에서의 효과를 입증한다.
POMDP 설정에서 성능 향상을 입증하기 위해 DRQN 및 DDRQN과 비교한다.

제안 방법

밀집층으로 동작을 인코딩하여 512-D 행동 표현을 얻는다.
행동 표현을 CNN으로 추출된 관찰 특징과 연결하여 행동-관찰 페어를 형성한다.
행동-관찰 페어의 시퀀스를 처리하기 위해 LSTM을 사용하여 잠재 상태 표현을 추론한다.
DQN에서와 같이 LSTM 출력으로부터 최종fully-connected 층을 통해 Q값을 계산한다.
에피소드에서 길이 10의 시퀀스를 사용한 경험 재생 및 타깃 네트워크 업데이트로 학습한다.
깜빡임(부분 관측) Atari 게임과 전체 관측 설정에서 DRQN 및 DDRQN과 비교하여 평가한다.

실험 결과

연구 질문

RQ1행동 정보를 순환 모델에 명시적으로 포함하는 것이 부분 관측 하에서 학습을 향상시킬 수 있는가?
RQ2관측이 간헐적으로 가려질 때를 포함하여 ADRQN이 POMDP 설정에서 기존 DRQN 기반 접근법보다 우수한가?
RQ3부분 관측 도메인에서 행동-관찰 결합이 학습 안정성과 학습 효율성에 어떤 영향을 미치는가?

주요 결과

완전 관측 설정에서 ADRQN은 DRQN 및 DDRQN과 유사한 성능을 달성한다.
부분 관측(깜빡임) 설정에서 ADRQN이 여러 Atari 게임에서 DRQN 및 DDRQN을 크게 능가한다.
깜빡임 Frostbite 및 유사한 작업에서 ADRQN은 학습 및 테스트 중 상당한 이점을 보이며 더 나은 신념 추론을 시사한다.
행동-관찰 결합은 학습 속도를 높이고 부분 관측에 대한 강건성을 향상시킨다.
일반화 실험에서 관측 확률이 달라져도 ADRQN은 견고함을 유지하며 DRQN 및 DDRQN보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.