QUICK REVIEW

[論文レビュー] Learnings Options End-to-End for Continuous Action Tasks

Martin Klissarov, Pierre‐Luc Bacon|arXiv (Cornell University)|Nov 30, 2017

Reinforcement Learning in Robotics参考文献 7被引用数 33

ひとこと要約

本論文は、PPO（Proximal Policy Optimization）と意思決定コストを組み合わせたオプション・クリティックアーキテクチャを用いて、時間的に拡張されたオプションを学習するエンド・ツー・エンドの深層強化学習手法を提案する。結果として、特にHopperIceBlock-v0のような構成的環境では、原始的アクションのみでは到達できないタスクを解決可能となる。サンプル効率と性能が向上した。

ABSTRACT

We present new results on learning temporally extended actions for continuoustasks, using the options framework (Suttonet al.[1999b], Precup [2000]). In orderto achieve this goal we work with the option-critic architecture (Baconet al.[2017])using a deliberation cost and train it with proximal policy optimization (Schulmanet al.[2017]) instead of vanilla policy gradient. Results on Mujoco domains arepromising, but lead to interesting questions aboutwhena given option should beused, an issue directly connected to the use of initiation sets.

研究の動機と目的

深層ニューラルネットワークを用いて、連続的制御環境におけるオプションのエンド・ツー・エンド学習を可能にすること。
PPOをオプション・クリティックフレームワークに統合することで、サンプル効率と学習安定性を向上させること。
意思決定コストがオプション学習および性能に与える影響を調査すること。
明確な状態空間の構成性を示す環境において、階層的オプションが優位性を示すかどうかを評価すること。
オプション数の手動指定の必要性と、開始集合がオプション選択における役割を検討すること。

提案手法

ヴァナイル方策勾配ではなくPPOを用いて、オプション内方策と終了条件をエンド・ツー・エンドで学習するように、オプション・クリティックアーキテクチャを適応した。
オプションの崩壊を防ぐために、意思決定コスト（η）を導入し、オプションが現在の方策を最小限のマージンで上回ることを要求した。
2ストリームニューラルネットワークを採用：1つはオプション上の方策関数と価値関数、もう1つは終了確率と状態-オプション価値を処理する。
安定した優位関数推定のため、一般化された優位性推定（GAE）を適用し、学習の安定化のため、確率比のクリッピングを実施した。
終了勾配更新の安定化のため、オプションベースの学習で報酬を1/10にスケーリングした。
シュルマンら（2017）と同一のハイパーパrameterを用い、公平な比較のため、ミニバッチサイズのみをオプション数に応じて調整した。

実験結果

リサーチクエスチョン

RQ1PPOは、連続的制御タスクにおけるオプション学習に、オプション・クリティックアーキテクチャと効果的に統合可能か？
RQ2意思決定コスト（η）は、学習されたオプションの出現と性能にどのように影響を与えるか？
RQ3どのような環境で、オプションが原始的アクションよりも顕著な性能優位性を示すか？
RQ4オプションの解釈可能性は、構成的タスクにおけるその有効性とどのように関連するか？
RQ5オプション数はハイパーパrameterとしての役割を果たす程度はどの程度で、エンド・ツー・エンドで学習可能か？

主な発見

PPOを強化したオプション・クリティックフレームワークは、Mujoco環境の大部分において、原始的アクションベースラインと比較して、より速い学習と高い最終的性能を達成した。
HopperIceBlock-v0環境では、唯一オプションベースのエージェントが1200点の成功閾値に到達した。これは、構成的タスクにおいて顕著な性能優位性を示している。
オプションによる性能向上は、意思決定コスト（η）に直接比例しないことが判明し、ハイパーパrameter選定と環境スケーリングへの感受性が示された。
1つのオプションは平坦な地形でのジャンプに特化しており、もう1つは滑らかなアイスブロックを越える移動を可能にした。これは明確な解釈可能性と機能的構成性を示している。
標準的なMujoco環境では、オプションは主にエピソード開始時に運動量を獲得するために使用され、機能的多様性は限定的であった。
結果から、オプションの利点は、明確な状態空間の構成性を示す環境で最も顕著であることが示唆され、現在のオプションフレームワークが均質的環境では限界を示すことが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。