QUICK REVIEW

[論文レビュー] Multi-Pass Q-Networks for Deep Reinforcement Learning with Parameterised Action Spaces

Craig J. Bester, Steven D. James|arXiv (Cornell University)|May 10, 2019

Reinforcement Learning in Robotics参考文献 20被引用数 43

ひとこと要約

MP-DQN はパラメータ化されたアクションを扱うための多重パス Q ネットワークを導入し、結合されたアクション-パラメータ入力から生じる偽の勾配を回避し、P-DQN および従来の手法よりも 3 つのドメイン全体でより速く、より信頼性の高い学習を実現する。

ABSTRACT

Parameterised actions in reinforcement learning are composed of discrete actions with continuous action-parameters. This provides a framework for solving complex domains that require combining high-level actions with flexible control. The recent P-DQN algorithm extends deep Q-networks to learn over such action spaces. However, it treats all action-parameters as a single joint input to the Q-network, invalidating its theoretical foundations. We analyse the issues with this approach and propose a novel method, multi-pass deep Q-networks, or MP-DQN, to address them. We empirically demonstrate that MP-DQN significantly outperforms P-DQN and other previous algorithms in terms of data efficiency and converged policy performance on the Platform, Robot Soccer Goal, and Half Field Offense domains.

研究の動機と目的

パラメータ化されたアクションを学習する際に、既存の P-DQN の問題点を動機づけて分析する。
新たなパラメータを追加せずにアクション-パラメータを分離する MP-DQN を提案する。
3 つのベンチマークドメインで MP-DQN が P-DQN および他のベースラインより経験的に改善されることを実証する。

提案手法

P-DQN における Q 値がすべてのアクション-パラメータに依存することを特定し、発生する偽勾配を導出する。
基底ベクトルを用いて、前向き伝搬ごとに関連するアクション-パラメータのみを入力する MP-DQN を提案する。
K 回の前向き伝搬を parallel に処理（ミニバッチ経由）して、各 Q_k が x_k のみに依存する状態を保ちながら、すべてのアクションの Q 値を計算する。
Platform、Robot Soccer Goal、Half Field Offense の各ドメインで、MP-DQN を P-DQN、SP-DQN、Q-PAMDP、PA-DDPG と比較する。
ターゲットネットワーク、Adam 最適化アルゴリズム、アクション-パラメータの反転境界、および従来の研究と一致した標準的な RL トレーニング手法を使用する。

実験結果

リサーチクエスチョン

RQ1多パスの前方伝搬によってアクション-パラメータを分離すると、偽の勾配を解決し学習の安定性が向上するか。
RQ2ベンチマーク domain 全体で、データ効率と最終ポリシーの質において MP-DQN は P-DQN および他のベースラインとどう比較されるか。
RQ3MP-DQN が競合手法に対して最も明確な利点を示すドメインはどれか。

主な発見

MP-DQN は P-DQN より有意に速く学習し、Platform、Robot Soccer Goal、Half Field Offense の各ドメインで平均評価スコアをより高く達成する。
SP-DQN は Platform と Robot Soccer Goal を改善するが Half Field Offense では頭打ちになり、共有特徴表現の欠如とパラメータ重複が原因と考えられる。
PA-DDPG はしばしば準最適なポリシーへ収束し、ドメインをまたいで不安定になることがある。
Q-PAMDP は Half Field Offense で学習できず、他のドメインでは MP-DQN に対して性能が劣る。
全体として、MP-DQN はテストされたパラメータ化アクションのベンチマークで従来の最先端手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。