QUICK REVIEW

[論文レビュー] Discrete and Continuous Action Representation for Practical RL in Video Games

Olivier Delalleau, Maxim Peter|arXiv (Cornell University)|Dec 23, 2019

Human Pose and Action Recognition参考文献 26被引用数 39

ひとこと要約

本論文は Hybrid SAC を提案する。Soft Actor-Critic の拡張で、離散・連続・混合離散-連続アクションを扱え、パラメータ化アクションのベンチマークと商用のビデオゲームで性能を評価する。さらに SAC との正規化フローを研究している。

ABSTRACT

While most current research in Reinforcement Learning (RL) focuses on improving the performance of the algorithms in controlled environments, the use of RL under constraints like those met in the video game industry is rarely studied. Operating under such constraints, we propose Hybrid SAC, an extension of the Soft Actor-Critic algorithm able to handle discrete, continuous and parameterized actions in a principled way. We show that Hybrid SAC can successfully solve a highspeed driving task in one of our games, and is competitive with the state-of-the-art on parameterized actions benchmark tasks. We also explore the impact of using normalizing flows to enrich the expressiveness of the policy at minimal computational cost, and identify a potential undesired effect of SAC when used with normalizing flows, that may be addressed by optimizing a different objective.

研究の動機と目的

産業設定でのデータと実行時制約を伴う強化学習の導入を促進する。
離散・連続・混合アクションを SAC 内で扱える実用的なオフポリシーアルゴリズム（Hybrid SAC）を開発する。
実務的タスクにおける policy の表現力と学習に対する正規化フローの影響を評価する。
パラメータ化アクションのベンチマークで Hybrid SAC を最先端手法と比較する。
実際の Ubisoft のゲームシナリオへの適用性を示して産業的関連性を示す。

提案手法

pi(a|s) を pi(a^d|s) と pi(a^c|s,a^d) に分解する一般的なアクション表現を提案し、混合アクションタイプに対応する。
離散アクション分布と離散選択に条件付けられた連続アクションの両方を学習し、離散アクションの Q 値を予測する critic を用いて、Hybrid SAC に拡張する。
離散部と連続部の探索をバランスするために、alpha^d H(pi(a^d|s)) + alpha^c sum_{a^d} pi(a^d|s) H(pi(a^c|s,a^d)) の加重エントロピーボーナスを用いる。
アクターが別個の離散分布と連続パラメータを出力するか、複数の成分に対して共有表現を出力するネットワークアーキテクチャを提供する。
実世界的な方針パラメータ化と、離散アクション集合が管理可能な場合に連続成分を離散アクションごとに複製するかどうかを検討する。
Gaussian ポリシーの上に正規化フローを適用して表現力を豊かにする実験を行うが、SAC の目的における KL 以外のフローの崩壊の可能性に留意する。

実験結果

リサーチクエスチョン

RQ1Hybrid SAC は実用的なビデオゲームタスクで混合離散・連続アクションのポリシーを効果的に学習できるか。
RQ2提案したアクション分解が、純粋に離散または純粋に連続なベースラインと比較してデータ効率と学習性能にどのように影響するか。
RQ3正規化フローは実務的な目的で SAC の性能を改善するのか、それとも低下させるのか、どの目的設定の下でそうなるのか。
RQ4業界ライクな制約とパラメータ化アクション空間に対して、どのアーキテクチャおよびパラメータ化の選択が最もスケールするか。
RQ5Hybrid SAC は MP-DQN のような最先端手法と比較してパラメータ化アクションベンチマークでどのように性能を示すか。

主な発見

方法	プラットフォーム（リターン）	ゴール（P(Goal)）	HFO（P(Goal)）
MP-DQN	0.987 ± 0.039	0.789 ± 0.070	0.913 ± 0.070
MP-DQN (no MC)	-	-	0.509 ± 0.110
Hybrid SAC	0.981 ± 0.013	0.728 ± 0.047	0.639 ± 0.141

Hybrid SAC はパラメータ化アクションベンチマークで競争力のある性能を発揮し、Platform では MP-DQN に匹敵、Goal では MP-DQN に近いが、HFO ではギャップがある。
商用ゲームでは、Hybrid SAC が離散のハンドブレーキと連続の加速・操舵を組み合わせた高速走行を安定して示した。
SAC に正規化フローを組み合わせても Roboschool ベンチマークで一貫して Gaussian ポリシーを上回らず、フローには KL 以外の目的を検討する必要があることを示唆する。
エントロピー・ボーナスが小さな離散アクション確率で連続パラメータの崩壊を引き起こす可能性があるという問題が特定され、MP-DQN の結果と整合する形でこの問題に対処する予備的試みが示された。
実験はポリシー表現の選択の重要性を示しており、離散アクションが管理可能な場合には離散アクションごとに連続パラメータを重複させることが学習を助けることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。