QUICK REVIEW

[논문 리뷰] Multi-Pass Q-Networks for Deep Reinforcement Learning with Parameterised Action Spaces

Craig J. Bester, Steven D. James|arXiv (Cornell University)|2019. 05. 10.

Reinforcement Learning in Robotics참고 문헌 20인용 수 43

한 줄 요약

MP-DQN은 매개변수화된 액션을 처리하기 위해 다중 패스 Q-네트워크를 도입하여 공동 액션-매개변수 입력에서 발생하는 허위 그래디언트를 피하고 P-DQN 및 기존 방법들보다 세 영역 전반에서 더 빠르고 안정적인 학습을 달성한다.

ABSTRACT

Parameterised actions in reinforcement learning are composed of discrete actions with continuous action-parameters. This provides a framework for solving complex domains that require combining high-level actions with flexible control. The recent P-DQN algorithm extends deep Q-networks to learn over such action spaces. However, it treats all action-parameters as a single joint input to the Q-network, invalidating its theoretical foundations. We analyse the issues with this approach and propose a novel method, multi-pass deep Q-networks, or MP-DQN, to address them. We empirically demonstrate that MP-DQN significantly outperforms P-DQN and other previous algorithms in terms of data efficiency and converged policy performance on the Platform, Robot Soccer Goal, and Half Field Offense domains.

연구 동기 및 목표

매개변수화된 액션 학습 시 기존 P-DQN의 문제점을 동기 부여하고 분석한다.
새로운 매개변수를 추가하지 않으면서 액션-파라미터를 분리하기 위해 MP-DQN을 제안한다.
세 가지 벤치마크 도메인에서 MP-DQN이 P-DQN 및 다른 베이스라인보다 실증적 개선을 보임을 시연한다.

제안 방법

P-DQN에서 Q-값이 모든 액션-파라미터에 의존하는 것을 식별하고 그로 인한 허위 그래디언트를 도출한다.
기저 벡터를 사용해 순전파마다 관련 액션-파라미터만 입력하는 다중 패스 Q-네트워크(MP-DQN)를 제안한다.
미니배치를 통해 병렬로 K개의 순전파를 처리하여 모든 액션의 Q-값을 계산하되 각 Q_k가 오직 x_k에 의존하도록 한다.
Platform, Robot Soccer Goal, and Half Field Offense 도메인 전반에서 MP-DQN을 P-DQN, SP-DQN, Q-PAMDP, PA-DDPG와 비교한다.
타깃 네트워크, Adam 옵티마이저, 액션-파라미터 역전 한계, 그리고 선행 연구와 일관된 표준 RL 학습 관행을 사용한다.

실험 결과

연구 질문

RQ1다중 패스 순전파를 통해 액션-파라미터를 분리하는 것이 허위 그래디언트를 해소하고 학습 안정성을 향상시키는가?
RQ2데이터 효율성 및 최종 정책 품질 측면에서 MP-DQN의 성능이 벤치마크 도메인들에서 P-DQN 및 다른 베이스라인과 어떻게 비교되는가?
RQ3어떤 도메인에서 MP-DQN이 경쟁 방법들보다 가장 뚜렷한 이점을 보여주나?

주요 결과

MP-DQN은 P-DQN보다 학습 속도가 훨씬 빠르고 Platform, Robot Soccer Goal, Half Field Offense에서 평균 평가 점수가 더 높게 확보된다.
SP-DQN은 Platform과 Robot Soccer Goal에서 향상되지만 Half Field Offense에서 정체되며 이는 공유 특성 표현 미흡과 매개변수 중복 때문일 가능성이 있다.
PA-DDPG는 자주 부분 최적 정책으로 수렴하며 도메인 간에 불안정할 수 있다.
Q-PAMDP는 Half Field Offense에서 학습에 실패하고 다른 도메인에서도 MP-DQN에 비해 성능이 떨어진다.
전반적으로 MP-DQN은 테스트된 매개변수화된 액션 벤치마크에서 이전의 최첨단 접근법을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.