QUICK REVIEW

[논문 리뷰] Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Continuous Hybrid Action Space

Jiechao Xiong, Qing Wang|arXiv (Cornell University)|2018. 10. 10.

Reinforcement Learning in Robotics참고 문헌 3인용 수 151

한 줄 요약

P-DQN을 도입하는 오프폴리시 딥 Q-네트워크 변형으로, 비 discretization(또는 비-완화) 없이 디스크리트-연속 하이브리드 행동 공간을 직접 처리하며, 각 이산 행동마다 상태로부터 연속 매개변수에 대한 결정적 매핑을 학습하고 Q-네트워크와 매개변수화 정책을 공동으로 학습한다.

ABSTRACT

Most existing deep reinforcement learning (DRL) frameworks consider either discrete action space or continuous action space solely. Motivated by applications in computer games, we consider the scenario with discrete-continuous hybrid action space. To handle hybrid action space, previous works either approximate the hybrid space by discretization, or relax it into a continuous set. In this paper, we propose a parametrized deep Q-network (P- DQN) framework for the hybrid action space without approximation or relaxation. Our algorithm combines the spirits of both DQN (dealing with discrete action space) and DDPG (dealing with continuous action space) by seamlessly integrating them. Empirical results on a simulation example, scoring a goal in simulated RoboCup soccer and the solo mode in game King of Glory (KOG) validate the efficiency and effectiveness of our method.

연구 동기 및 목표

게임에서 발견되는 이산-연속 하이브리드 행동 환경에서 강화학습의 동기를 제시한다.
이산화나 완화 없이 하이브드 행동을 직접 최적화하는 프레임워크를 개발한다.
Q-네트워크와 결정적 매개변수화 정책을 통합하는 확장 가능한 오프폴리시 학습 방법을 도입한다.

제안 방법

하이브드 행동 공간 A = {(k, x_k) | k in [K], x_k in X_k} 및 행동 가치 함수 Q(s, k, x_k) 를 정의한다.
각 이산 행동에 대해 상태를 연속 매개변수로 매핑하는 결정적 정책 x_k = x_k(s; θ) 를 사용한다.
Q-네트워크 Q(s, k, x_k; ω)를 유지하면서 최적의 연속 매개변수 x_k^Q(s)를 대응하는 정책 네트워크로 근사한다.
ω가 θ보다 느리게 업데이트되도록 두 시점의 확률적 근사(n-step 벨만 타깃 y_t)로 학습한다.
경험 재생과 ε-탐욕 탐색을 사용하고 θ와 ω에 대한 오프폴리시 목표를 적용한다.
여러 워커에서 학습 속도를 높이기 위한 비동기 n-step P-DQN 변형을 제공한다.

실험 결과

연구 질문

RQ1딥 Q-네트워크를 이산-연속 하이브드 행동에 대해 discretization이나 relaxation 없이 확장할 수 있는가?
RQ2각 행동에 대해 이산 선택과 연속 매개변수화를 효율적으로 공동으로 학습할 수 있는가?
RQ3제안된 P-DQN이 하이브드 행동 작업에서 relaxation 기반 또는 discretization 기반 방법보다 성능이 우수한가?

주요 결과

P-DQN은 이산 행동에 연관된 연속 매개변수로 바로 최적화를 수행하여 행동 공간을 이산화하거나 완화할 필요가 없다.
실험적 결과 P-DQN이 relaxation 기반 방법보다 수렴 속도가 빠르고 학습이 더 안정적임을 보였다.
P-DQN은 RoboCup 축구 및 King of Glory 실험에서 효율성과 효과성 측면에서 베이스라인을 능가함.
비동기 n-step P-DQN 변형이 다중 워커 간 학습 속도를 가속화함.
이 접근법은 하이브리드 행동을 다루기 위해 DQN과 DDPG의 아이디어를 오프폴리시 설정에서 통합한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.