QUICK REVIEW

[論文レビュー] Hierarchical Approaches for Reinforcement Learning in Parameterized Action Space

Ermo Wei, Drew Wicke|arXiv (Cornell University)|Oct 23, 2018

Reinforcement Learning in Robotics被引用数 24

ひとこと要約

本論文は、離散的アクション方策が連続的パラメータ方策を条件づけることで出力サイズを削減し、サンプル効率を向上させる、パラメータ化されたアクション空間を対象とした階層的深層強化学習フレームワークを提案する。著者らは、SOTA手法（PADDPGなど）よりも安定性と性能に優れるPATRPOおよびPASVG(0)を導入した。

ABSTRACT

We explore Deep Reinforcement Learning in a parameterized action space. Specifically, we investigate how to achieve sample-efficient end-to-end training in these tasks. We propose a new compact architecture for the tasks where the parameter policy is conditioned on the output of the discrete action policy. We also propose two new methods based on the state-of-the-art algorithms Trust Region Policy Optimization (TRPO) and Stochastic Value Gradient (SVG) to train such an architecture. We demonstrate that these methods outperform the state of the art method, Parameterized Action DDPG, on test domains.

研究の動機と目的

エンドツーエンド学習におけるパラメータ化されたアクション空間タスクにおけるサンプル非効率性の課題に対処すること。
従来の手法が離散的およびパラメータ化されたアクションを別々に扱う、または条件づけなしに扱うという制限を克服すること。
パラメータ方策が離散的アクション選択に条件づけられる統合アーキテクチャを構築し、出力次元を低減すること。
TRPOおよびSVGの最先端アルゴリズムを階層的アーキテクチャに適応し、効果的に学習を実行するための拡張を行うこと。
複雑な制御タスクにおいて、PADDPGなどの既存手法と比較して優れた性能と安定性を示すことを実証すること。

提案手法

パラメータ方策が離散的アクション方策の出力に条件づけられる階層的アーキテクチャを提案し、パラメータ出力サイズを低減すること。
二本のストリームを持つ方策ネットワークを採用：一方は離散的アクション（カテゴリカル出力）、もう一方は離散的アクションに条件づけられた連続的パララメータ（回帰出力）。
Trust Region Policy Optimization (TRPO) を階層的設定に適応し、PATRPOを導出。方策更新にKLダイバージェンス制約を適用。
Stochastic Value Gradient (SVG) を階層的設定に拡張し、PASVG(0)を生成。評価関数を推定するためのクライアントネットワークを用いる。
可変長のパラメータ出力を処理するため、出力マスクおよび切り捨てを適用し、有効な最初のパラメータのみを活用。
リプレイバッファとオフポリシー学習を用いて、学習におけるデータ効率を向上。

実験結果

リサーチクエスチョン

RQ1離散的アクションに条件づけられたパラメータ方策を有する階層的方策アーキテクチャが、パラメータ化されたアクション空間タスクにおけるサンプル効率を向上させることができるか？
RQ2TRPOおよびSVGベースのアルゴリズムが、このような階層的アーキテクチャに適応された場合、どのような性能を示すか？
RQ3提案手法がPADDPGなどの既存SOTA手法と比較して、学習の安定性と最終的性能において優れているか？
RQ4異なるKLダイバージェンス推定手法が、階層的フレームワークにおける学習安定性に与える影響は何か？
RQ5高次元の状態空間およびアクション空間を持つ、より大規模で複雑な環境に対しても、本手法は一般化可能か？

主な発見

PATRPOはプラットフォームドメインで最良の性能を達成し、性能の崩壊を示さずに高い報酬水準を維持した。
PADDPGは学習が不安定で、初期に成功を収めたにもかかわらず、すぐに効果的な方策を失った。これは収束安定性の欠如を示唆している。
PASVG(0)は局所最適解に収束し、平均報酬が約0.4に達した。これは最初の敵を回避するが、2番目のプラットフォームに着地に失敗することを意味する。
PATRPOにおける大きなステップサイズは収束を早めるが、同時に分散を増大させ、方策安定化後に性能低下を引き起こすというトレードオフを示した。
HFOドメインでは、PATRPOはより小さなニューラルネットワーク（400-300-200）で安定した性能を達成したが、PADDPGは高い分散と著しく悪い性能を示した。これはベースライン手法がより大きなネットワークを必要としている可能性を示唆している。
プラットフォームドメインでは、異なるKLダイバージェンス推定手法が性能にほとんど影響を与えなかった。これはTRPOベースの更新メカニズムのロバスト性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。