QUICK REVIEW

[論文レビュー] Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Continuous Hybrid Action Space

Jiechao Xiong, Qing Wang|arXiv (Cornell University)|Oct 10, 2018

Reinforcement Learning in Robotics参考文献 3被引用数 151

ひとこと要約

P-DQNを導入。離散-連続ハイブリッドアクション空間を離散化や緩和なしに直接扱うオフポリシー深層Qネットワークの変種。各離散アクションに対して状態から連続パラメータへの決定的マッピングを学習し、Qネットワークとパラメータ化ポリシーを共同訓練する。

ABSTRACT

Most existing deep reinforcement learning (DRL) frameworks consider either discrete action space or continuous action space solely. Motivated by applications in computer games, we consider the scenario with discrete-continuous hybrid action space. To handle hybrid action space, previous works either approximate the hybrid space by discretization, or relax it into a continuous set. In this paper, we propose a parametrized deep Q-network (P- DQN) framework for the hybrid action space without approximation or relaxation. Our algorithm combines the spirits of both DQN (dealing with discrete action space) and DDPG (dealing with continuous action space) by seamlessly integrating them. Empirical results on a simulation example, scoring a goal in simulated RoboCup soccer and the solo mode in game King of Glory (KOG) validate the efficiency and effectiveness of our method.

研究の動機と目的

ゲームに見られる離散-連続ハイブリッドアクションを持つ環境で強化学習を動機づける。
離散化や緩和なしにハイブリッドアクションを直接最適化するフレームワークを開発する。
Qネットワークと決定的パラメータ化ポリシーを統合するスケーラブルなオフポリシー学習法を添付する。

提案手法

ハイブリッドアクション空間 A = {(k, x_k) | k in [K], x_k in X_k} およびアクション価値関数 Q(s, k, x_k) を定義する。
決定的ポリシー x_k = x_k(s; θ) を用いて各離散アクションに対する連続パラメータを状態から写像する。
最適な連続パラメータ x_k^Q(s) を対応するポリシー網路で近似しつつ、Qネットワーク Q(s, k, x_k; ω) を保持する。
ω が θ より遅く更新される二時刻スケールの確率近似を用いて、nステップベルマンターゲット y_t で訓練する。
経験再playとε-greedy探索を用い、θとωのオフポリシー目的を持つ。
非同期n-step P-DQN変種を提供して複数ワーカー間の訓練を高速化する。

実験結果

リサーチクエスチョン

RQ1深層Qネットワークを離散-連続ハイブリッドアクションに対して discretization も relaxation もなしで拡張できるか。
RQ2各アクションの離散アクション選択と連続パラメータ化を効率的に共同学習できるか。
RQ3提案するP-DQNはハイブリッドアクションタスクで緩和ベースや離散化ベースの方法より優れているか。

主な発見

P-DQNは離散アクションと関連連続パラメータを直接最適化し、アクション空間を離散化・緩和する必要がない。
実証的結果は、緩和ベースの方法より収束が早く安定した学習をP-DQNが達成することを示す。
RoboCupサッカーとKing of Glory実験でP-DQNは効率と有効性の点でベースラインを上回る。
非同期n-step P-DQN変種は複数ワーカーにわたる訓練を加速する。
アプローチはオフポリシー設定でハイブリッドアクションを扱うためのDQNとDDPGのアイデアを統合している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。