QUICK REVIEW

[論文レビュー] HIRL: Hierarchical Inverse Reinforcement Learning for Long-Horizon Tasks with Delayed Rewards

Sanjay Krishnan, Animesh Garg|arXiv (Cornell University)|Apr 21, 2016

Reinforcement Learning in Robotics参考文献 33被引用数 27

ひとこと要約

HIRLは、カーネル関数を用いて局所線形性の変化を特定することで、専門家のデモから部分的タスク構造を学習する階層的逆強化学習フレームワークを提案する。その後、これらの部分的タスクを用いて構造的で順序付けられた報酬を構築する。この手法は、部分観測やノイズの多いダイナミクス下でも、MaxEnt IRLに比べて最大6倍速い収束を達成する。

ABSTRACT

Reinforcement Learning (RL) struggles in problems with delayed rewards, and one approach is to segment the task into sub-tasks with incremental rewards. We propose a framework called Hierarchical Inverse Reinforcement Learning (HIRL), which is a model for learning sub-task structure from demonstrations. HIRL decomposes the task into sub-tasks based on transitions that are consistent across demonstrations. These transitions are defined as changes in local linearity w.r.t to a kernel function. Then, HIRL uses the inferred structure to learn reward functions local to the sub-tasks but also handle any global dependencies such as sequentiality. We have evaluated HIRL on several standard RL benchmarks: Parallel Parking with noisy dynamics, Two-Link Pendulum, 2D Noisy Motion Planning, and a Pinball environment. In the parallel parking task, we find that rewards constructed with HIRL converge to a policy with an 80% success rate in 32% fewer time-steps than those constructed with Maximum Entropy Inverse RL (MaxEnt IRL), and with partial state observation, the policies learned with IRL fail to achieve this accuracy while HIRL still converges. We further find that that the rewards learned with HIRL are robust to environment noise where they can tolerate 1 stdev. of random perturbation in the poses in the environment obstacles while maintaining roughly the same convergence rate. We find that HIRL rewards can converge up-to 6x faster than rewards constructed with IRL.

研究の動機と目的

報酬が遅れて到着する長時間スケールの強化学習タスクにおいて、効率的な方策を学習する課題に対処すること。
報酬信号が疎であったり遅れて到着する場合に標準的なIRLが非効率であるのを補うために、段階的な報酬を伴う部分的タスクにタスクを分解すること。
完全なシステム同定を必要とせずに、少数の専門家デモから階層的タスク構造を学習すること。
部分的状態観測や環境ノイズ下でも、部分的タスク構造を活用することで、頑健で高速な方策学習を可能にすること。
状態空間の拡張を通じて、局所的部分的タスクのダイナミクスとグローバルな順序依存性の両方を尊重する報酬関数を構築すること。

提案手法

カーネル関数を用いて、デモ全体にわたる局所線形性の変化の一貫性を検出し、完全なシステム同定を回避することで部分的タスクを特定する。
各部分的タスクを停止ルールと局所的報酬関数を持つ線形・ガウス型MDPとしてモデル化する。
順序依存性を符号化し、正しい実行順序を強制するために、アクティブな部分的タスクインジケータを状態空間に追加する。
拡張された状態空間上で逆強化学習（IRL）を適用し、現在の状態とアクティブな部分的タスクの両方を反映する報酬関数を学習する。
状態がアクティブな部分的タスクを表す高レベルのMDPとして複合タスクを形式化し、遷移は部分的タスクの結果に依存する。
非線形性、確率的要因、部分観測の程度が異なるベンチマーク環境にこのフレームワークを適用し、性能を評価する。

実験結果

リサーチクエスチョン

RQ1完全なシステム同定を伴わずに、専門家デモから部分的タスク構造を信頼性高く推論できるか？
RQ2部分的タスクに分割することで得られる階層的報酬設計は、報酬が遅れて到着する長時間スケールのRLタスクにおける学習効率をどのように向上させるか？
RQ3HIRLは、標準的なIRLや報酬が遅れて到着するRLに比べて、収束速度と成功確率をどの程度改善するか？
RQ4部分的状態観測や環境ノイズに対して、HIRLはベースライン手法と比較してどの程度頑健か？
RQ5HIRLが学習した階層的構造は、局所的報酬最適化を可能にしつつ、グローバルな順序一貫性を維持できるか？

主な発見

HIRLは、最大エントロピー逆強化学習（MaxEnt IRL）に比べて、学習において最大6倍速い収束を達成した。特にパラレルパーキングおよびピンバックル環境で最も速い収束が観測された。
完全な状態観測下のパラレルパーキングタスクでは、HIRLはMaxEnt IRLに比べて32%少ないタイムステップで80%の成功率に到達した。
部分的状態観測（位置と姿勢のみ）下でも、HIRLは収束を維持し、収束に失敗したIRLよりも高い成功確率を達成した。
HIRLが学習した報酬は、障害物位置に1標準偏差のランダム摂動に対しても頑健であり、類似した収束速度を維持した。
2部屋（Two-Rooms）を除くすべてのベンチマークで、HIRLは収束速度（AUC）と達成可能な最大報酬の両面で代替手法を上回った。
真の報酬が既知のドメインでは、HIRLは完全な事前知識がある場合に得られる最適報酬の10%以内の報酬を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。