QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning in Parameterized Action Space

Matthew Hausknecht, Peter Stone|arXiv (Cornell University)|Nov 13, 2015

Reinforcement Learning in Robotics参考文献 9被引用数 54

ひとこと要約

この論文は、連続制御におけるパラメータ化されたアクション空間に深層決定的政策勾配（DDPG）を拡張し、境界付きで構造的なアクション空間における安定学習のための勾配バウンディングを導入している。この手法により、ロボカップ2Dハーフフィールドオフェンス環境でエージェントを効果的に訓練し、2012年の手作業でコーディングされた優勝エージェントを上回るゴールスコアの安定性を達成した。これは、パラメータ化されたアクション空間における最初の成功した深層強化学習の実装である。

ABSTRACT

Recent work has shown that deep neural networks are capable of approximating both value functions and policies in reinforcement learning domains featuring continuous state and action spaces. However, to the best of our knowledge no previous work has succeeded at using deep neural networks in structured (parameterized) continuous action spaces. To fill this gap, this paper focuses on learning within the domain of simulated RoboCup soccer, which features a small set of discrete action types, each of which is parameterized with continuous variables. The best learned agent can score goals more reliably than the 2012 RoboCup champion agent. As such, this paper represents a successful extension of deep reinforcement learning to the class of parameterized action space MDPs.

研究の動機と目的

離散的アクションタイプと連続的パラメータを組み合わせたパラメータ化されたアクション空間における深層強化学習の拡張を目的とする。
境界付きで連続的なアクション空間におけるDDPGの不安定性を解消するため、勾配バウンディングを導入する。
手作業でコーディングされた行動に依存せずに、ロボカップ2Dハーフフィールドオフェンス環境でエンドツーエンドの深層強化学習エージェントを訓練する。
単一のモノリシックな方策を用いて、ボールに近づく、ドリブルする、ゴールを決めるといった複雑なマルチステージタスクを深層強化学習が学習可能であることを示す。
将来的なマルチエージェント協調とディフェンダーオンラインゴールスコアリングの分野における基盤を構築する。

提案手法

クライアントの勾配更新を変更し、アクション空間における勾配をバウンディングすることで、DDPGを拡張し、学習の安定性を向上させる。
深層ニューラルネットワークを用いて、連続的状態-アクション空間におけるエクスプロイト（方策）とクライアント（行動価値関数）をパラメータ化する。
4つの離散的アクションタイプ（ダッシュ、ターン、タックル、キック）を有するパラメータ化されたアクション空間を採用し、各アクションには1〜2つの連続的パラメータ（例：パワー、方向）が付随する。
スパarselyだが情報豊富な報酬関数を採用：ボールへの移動、キック開始の成功、ゴールへの接近度。
DDPGと同様に、オフポリシーの経験リプレイとターゲットネットワークを用いて、エージェントをスクラッチから訓練する。
境界付きアクション空間における学習の発散を防ぐために、アクション空間勾配に対して勾配クリッピングを実装する。

実験結果

リサーチクエスチョン

RQ1離散的アクションタイプと連続的パラメータを組み合わせたパラメータ化されたアクション空間において、深層強化学習が実際に成功するか？
RQ2アクション空間の勾配をバウンディングすることで、境界付きで連続的なアクション空間における学習の安定性と性能が向上するか？
RQ31つの深層強化学習エージェントが、手作業でコーディングされた行動に依存せずに、ボールに近づく、ドリブルする、ゴールを決めるといった一連の複雑な行動を学習できるか？
RQ4学習されたエージェントの性能は、ロボカップ2Dハーフフィールドオフェンス環境における手作業でコーディングされたエキスパートポリシーと比較してどうか？
RQ5提案手法はHFOの分野を越えて、他の連続的かつ境界付きのアクション空間にも一般化可能か？

主な発見

提案された勾配バウンディング技術は、境界付きで連続的なアクション空間における学習の安定性を顕著に向上させ、標準的なDDPGが失敗する状況でも信頼性のある学習を可能にした。
最良の学習エージェントは、2012年のロボカップ優勝エージェントを上回るゴールスコアの安定性を示したが、速度は遅い。
エージェントは、単一のエンドツーエンド訓練済みポリシーを用いて、ボールに近づく、ゴールへドリブルする、ゴールスコアのキックを実行する能力を効果的に学習した。
外部のポリシー探索や手作業で設計された行動に依存せずに、複雑なパラメータ化されたアクション空間でスクラッチからの安定学習を可能にした。
クライアントの状態入力に関する勾配は、改善の方向を示しており、将来的なモデルベースの拡張に有望な可能性を示している。
このアプローチはHFOの分野を越えて一般化可能であり、他の連続的かつ境界付きのアクション空間問題においても有益であると予想される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。