QUICK REVIEW

[論文レビュー] Primal Wasserstein Imitation Learning

Robert Dadashi, Léonard Hussenot|arXiv (Cornell University)|Jun 8, 2020

Reinforcement Learning in Robotics参考文献 61被引用数 41

ひとこと要約

PWIL は、専門家とエージェントの状態-行動分布間の Wasserstein 距離を primal 形式で最小化し、少ないデモンストレーションと minmax トレーニングなしでほぼ専門家の模倣を達成する offline 報酬を導出する。

ABSTRACT

Imitation Learning (IL) methods seek to match the behavior of an agent with that of an expert. In the present work, we propose a new IL method based on a conceptually simple algorithm: Primal Wasserstein Imitation Learning (PWIL), which ties to the primal form of the Wasserstein distance between the expert and the agent state-action distributions. We present a reward function which is derived offline, as opposed to recent adversarial IL algorithms that learn a reward function through interactions with the environment, and which requires little fine-tuning. We show that we can recover expert behavior on a variety of continuous control tasks of the MuJoCo domain in a sample efficient manner in terms of agent interactions and of expert interactions with the environment. Finally, we show that the behavior of the agent we train matches the behavior of the expert with the Wasserstein distance, rather than the commonly used proxy of performance.

研究の動機と目的

報酬信号を指定するのが難しい、または疎な場合に模倣学習を動機づける。
状態-行動分布間の primal Wasserstein 距離を用いた原理的な距離ベースの目的を提案する。
primal Wasserstein 距離の上限からオフライン報酬関数を導出し、学習を導く。
連続制御タスク（難しい Humanoid シナリオを含む）で専門家の挙動をサンプル効率良く回復させる。
特徴ベースおよびピクセルベース（視覚）観測の双方への適用性を示す。

提案手法

模倣をエージェントと専門家の経験的状態-行動分布間の 1-Wasserstein 距離を最小化することとして定式化する。
Wasserstein 距離のオンライン計算可能な上限を得るための貪欲結合を導入する。
エピソード性で履歴依存の報酬 r を、専門家遷移への距離から計算される貪欲コスト c_i の単調関数として定義する。
offline 由来の報酬を用いた一般的な RL エージェントを用いるアルゴリズム PWIL を提供する。
距離 d(.) を定義するために、連結された状態-行動ベクトル上の標準化ユークリッド距離を用い、必要に応じてピクセルから学習または学習させる。
対戦的 IL 手法で典型的な minmax 学習ループを回避することで、スケーラビリティと安定性を示す。

実験結果

リサーチクエスチョン

RQ1PWIL は MuJoCo の様々なデモ数で専門家の挙動を回復するか。
RQ2PWIL は DAC や BC のような最先端 IL 手法と比較してサンプル効率が良いか。
RQ3PWIL は実際に専門家とエージェントの状態-行動分布間の Wasserstein 距離を最小化しているか。
RQ4MWIL は offline で学習された MDP 指標を用いて視覚/ピクセルベースの観測にも拡張できるか。
RQ5PWIL のアブレーションが専門家の挙動再現能力に与える影響は何か。

主な発見

PWIL は Humanoid を含む複数の MuJoCo タスクで、単一デモからでもほぼ専門家レベルの性能を達成する。
PWIL は環境を通じて専門家に対する Wasserstein 距離の最小化で競争力があり、DAC と比較して多くのケースでより厳密な距離削減を示す。
offline 由来の報酬関数はわずか二つのハイパーパラメータしか必要とせず、単純な報酬形式の恩恵を受け、調整の労力を削減する。
アブレーション研究は、行動ベースのマッチング（PWIL-state）や適切な MD 距離重み付けのような要素が性能に決定的に影響し、完全な専門家挙動回復には“ポップアウト”が重要であることを示す。
PWIL は視覚ベースの観測にも拡張され、埋め込み空間で距離を学習する（Temporal Cycle-Consistency Learning を介して）ことで、ドア開閉タスクの成功を回復する。
PWIL はサンプル効率が高く、意味のあるスコアで Humanoid を少数のデモンストレーションで解くなど、シードと環境を跨いで堅牢性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。