QUICK REVIEW

[論文レビュー] Meta-Inverse Reinforcement Learning with Probabilistic Context Variables

Lantao Yu, Tianhe Yu|arXiv (Cornell University)|Sep 20, 2019

Reinforcement Learning in Robotics被引用数 31

ひとこと要約

本稿では、深層潜在変数モデルを用いて非構造的かつ多様な示範から、分離可能で一般化可能な報酬関数を学習する、メタ逆強化学習のための確率的埋め込み（PEMIRL）を提案する。1つの示範から確率的コンテキスト変数を推論することで、PEMIRLは未確認のダイナミクスを持つ新しいタスクに対し、少数の示範で報酬一般化を可能とし、連続制御環境において最先端の模倣学習および逆強化学習手法を上回る性能を発揮する。

ABSTRACT

Providing a suitable reward function to reinforcement learning can be difficult in many real world applications. While inverse reinforcement learning (IRL) holds promise for automatically learning reward functions from demonstrations, several major challenges remain. First, existing IRL methods learn reward functions from scratch, requiring large numbers of demonstrations to correctly infer the reward for each task the agent may need to perform. Second, existing methods typically assume homogeneous demonstrations for a single behavior or task, while in practice, it might be easier to collect datasets of heterogeneous but related behaviors. To this end, we propose a deep latent variable model that is capable of learning rewards from demonstrations of distinct but related tasks in an unsupervised way. Critically, our model can infer rewards for new, structurally-similar tasks from a single demonstration. Our experiments on multiple continuous control tasks demonstrate the effectiveness of our approach compared to state-of-the-art imitation and inverse reinforcement learning methods.

研究の動機と目的

従来の逆強化学習がタスクごとに多数の示範を必要とするデータ非効率性を是正すること。
1つの示範のみを用いて、構造的に類似した新しいタスクへの報酬関数の一般化を可能とすること。
事前に定義されたタスクグループなしに、非構造的かつ多様な示範から、頑健で分離可能な報酬関数を学習すること。
高次元の状態-行動空間を持つ複雑な連続制御環境へのメタ-IRLのスケーラビリティを高めること。
少数の示範による報酬推論と、非構造的マルチタスク示範からの学習のギャップを埋めること。

提案手法

PEMIRLは、コンテキストベースのメタ学習、深層潜在変数モデル、および最大エントロピー逆強化学習を統合した統一的なグラフィカルモデルに統合する。
変分推論フレームワークを用いて、示範軌道から確率的コンテキスト変数を推論し、タスク固有の構造を符号化する。
最大エントロピーIRLに基づく微分可能な目的関数を用いて、報酬関数の一般化とコンテキスト変数の推論を同時に最適化する。
1つの示範に条件付けられた潜在コンテキスト変数により、モデルは潜在的なタスク目標を推論し、新しいダイナミクスに一般化できる。
生成モデルを用いて専門家の示範を再構築し、識別器を用いて専門家軌道とポリシーが生成する軌道を区別する。これはAIRLと同様のアプローチである。
タスクラベルなしに、非構造的マルチタスク示範上でエンドツーエンドに訓練され、新しいタスクへのゼロショット適応が可能となる。

実験結果

リサーチクエスチョン

RQ1メタ-IRLモデルは、新しいタスクの1つの示範から、分離可能で一般化可能な報酬関数を推論できるか？
RQ21つの示範のみが提供された場合、環境のダイナミクスが変更された新しいタスクへのモデルの一般化性能はどの程度か？
RQ3タスクアノテーションなしに、非構造的かつ多様な示範から、頑健な報酬関数を学習できるか？
RQ4少数の示範設定において、モデルの報酬一般化性能は最先端の模倣学習および逆強化学習手法と比較してどの程度か？
RQ5確率的コンテキスト変数の使用により、標準的なIRLやGANベースの手法と比較して、ダイナミクスからの報酬の分離性が向上するか？

主な発見

PEMIRLは、障害のあるアンチが歩行するタスクで平均報酬152.62 ± 11.75を達成し、Meta-InfoGAIL（152.62 対 -38.73）およびAIRL（-76.21）を顕著に上回った。
ポイントメイズシフトタスクでは、PEMIRLは報酬-9.04 ± 1.09を達成し、Meta-IL（-28.61）およびMeta-InfoGAIL（-29.72）を上回った。
モデルは、1つの示範から真のゴールを推論することで、メイズの障害物を回避するRLエージェントを成功に実装したが、AIRLはタスク全体にわたる平均報酬を学習したため失敗した。
Meta-InfoGAILの識別器出力は一様分布に収束し、情報のない報酬を提供したため、ポリシーの性能が著しく低下した。
PEMIRLは、下位のゴールを正しく捉えた分離可能な報酬関数を学習し、新しいダイナミクス下でも効果的なポリシー学習を可能とした。
モデルは、ポイントメイズ、アンチ、スイーパー、ソーウォー・プッシュャーを含む、複雑な連続制御環境においてもスケーラビリティと有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。