QUICK REVIEW

[논문 리뷰] Deep Recurrent Q-Learning for Partially Observable MDPs

Matthew Hausknecht, Peter Stone|arXiv (Cornell University)|2015. 07. 23.

Reinforcement Learning in Robotics참고 문헌 11인용 수 686

한 줄 요약

이 논문은 부분 관측 가능한 MDP(부분 관측 가능한 마코프 결정 과정, POMDP)를 다루기 위해 딥 Q-네트워크(DQN)에 장기 단기 기억(LSTM) 네트워크를 통합한 딥 순환 Q-네트워크(DRQN)를 제안한다. 단일 프레임 입력을 순환 네트워크를 통해 처리함으로써 DRQN은 시간적 의존성을 포착하고, 전체 관측 가능한 아케이드 게임에서는 DQN과 유사한 성능를 달성하면서도, 깜빡임이 발생하는 환경과 같이 부분 관측 가능한 조건에서는 DQN보다 뚜렷하게 뛰어난 성능를 보인다.

ABSTRACT

Deep Reinforcement Learning has yielded proficient controllers for complex tasks. However, these controllers have limited memory and rely on being able to perceive the complete game screen at each decision point. To address these shortcomings, this article investigates the effects of adding recurrency to a Deep Q-Network (DQN) by replacing the first post-convolutional fully-connected layer with a recurrent LSTM. The resulting extit{Deep Recurrent Q-Network} (DRQN), although capable of seeing only a single frame at each timestep, successfully integrates information through time and replicates DQN's performance on standard Atari games and partially observed equivalents featuring flickering game screens. Additionally, when trained with partial observations and evaluated with incrementally more complete observations, DRQN's performance scales as a function of observability. Conversely, when trained with full observations and evaluated with partial observations, DRQN's performance degrades less than DQN's. Thus, given the same length of history, recurrency is a viable alternative to stacking a history of frames in the DQN's input layer and while recurrency confers no systematic advantage when learning to play the game, the recurrent net can better adapt at evaluation time if the quality of observations changes.

연구 동기 및 목표

딥 Q-네트워크(DQN)가 부분 관측 가능한 마코프 결정 과정(POMDP)을 다룰 수 있는 능력에 한계가 있다는 점을 해결하기 위해.
부분 관측 가능한 환경, 예를 들어 깜빡이는 게임 화면과 같은 상황에서 순환 신경망이 성능 향상에 기여할 수 있는지 조사하기 위해.
완전 관측 가능한 환경에서 훈련된 순환 정책이 부분 관측 가능한 조건에서 테스트되었을 때 비순환 정책보다 더 잘 일반화되는지 평가하기 위해.
훈련 시 부분 관측 가능한 관측치를 사용하더라도 관측 가능성 수준이 증가함에 따라 DRQN이 성능 유지를 또는 향상시킬 수 있는지 확인하기 위해.

제안 방법

표준 DQN의 첫 번째 완전 연결 층을 장기 단기 기억(LSTM) 층으로 대체하여 시간적 처리를 가능하게 한다.
단일 프레임 입력을 LSTM을 통해 처리하여 이전 정보를 캐릭터라이징하는 은닉 상태를 유지함으로써, 네트워크가 부분 관측 상태에서 속도와 운동을 추론할 수 있도록 한다.
경험 재생과 타겟 네트워크를 포함한 동일한 훈련 절차를 사용하지만, 이를 순환 아키텍처에 적용하고 시간에 따라 역전파(Backpropagation through time)를 수행한다.
시간 차분 학습을 사용하여 DRQN을 엔드 투 엔드로 훈련하고 손실 함수 $ L(s,a| heta_i) = ig{(}r + eta ext{max}_{a'} Q(s',a'| heta_i) - Q(s,a| heta_i) ig{)}^2 $ 를 최소화하며, 확률적 경사 하강법을 통한 기울기 갱신을 수행한다.
표준 아케이드 게임과 그 깜빡임 버전에서 성능을 평가하며, 각 타임스텝에서 일부 프레임만 가시성이 있는 환경을 대상으로 한다.
다양한 지표를 기반으로 DRQN과 표준 DQN을 비교한다: 전체 관측 가능성 조건, 부분 관측 가능성(깜빡임), 관측 가능성 증가에 따른 확장성.

실험 결과

연구 질문

RQ1DQN이 제한된 기억으로 인해 실패하는 부분 관측 가능한 환경에서, LSTM과 같은 순환 네트워크가 성능 향상에 기여할 수 있는가?
RQ2완전 관측 가능한 게임에서 훈련된 DRQN은 부분 관측 가능한 조건에서 평가되었을 때 DQN보다 더 잘 일반화되는가?
RQ3부분 관측 상태에서 훈련한 후 관측 가능성 수준이 증가함에 따라 성능가 어떻게 변화하는가?
RQ4DQN에서의 프레임 스택킹 대비 순환성의 체계적 이점이 아케이드 게임에서 시간적 의존성을 다룰 때 존재하는가?

주요 결과

DRQN은 표준 아케이드 게임에서 DQN과 유사한 성능를 달성하여, 순환성의 도입이 완전 관측 가능한 MDP 환경에서 성능 저하를 유발하지 않음을 입증한다.
아케이드 게임의 깜빡임 버전에서 DRQN의 성능는 DQN보다 더 유연하게 저하되며, 깜빡임 수준이 높아질수록 유의미하게 높은 점수를 기록한다.
부분 관측 가능한 관측치로 훈련하고 관측 가능성 수준을 증가시키면서 평가했을 때, DRQN의 성능는 관측 가능성 증가에 따라 단조롭게 향상되며, 모든 프레임이 가시성이 있을 경우 거의 완벽한 점수에 도달한다.
완전 관측 상태에서 훈련하고 부분 관측 가능한 조건에서 테스트했을 때, DRQN은 DQN보다 모든 깜빡임 수준에서 원래 성능의 더 높은 비율을 유지한다.
깜빡임이 없는 아케이드 게임에서 DRQN은 DQN과 유의미한 성능 차이를 보이지 않아, 완전 관측 가능한 환경에서는 체계적인 이점이 없음을 시사한다.
Pong과 Frostbite는 DRQN이 뚜렷한 성능 향상을 보인 아웃라이어 게임으로, 이는 순환성의 이점이 흐린 시각적 신호에서 운동을 추론해야 하는 과제에서 가장 두드러진다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.