[論文レビュー] Wasserstein Adversarial Imitation Learning
この論文は apprenticeship learning を Optimal Transport と結びつけて Wasserstein Adversarial Imitation Learning (WAIL) を創出し、 Kantorovich potentials を報酬として用い、エントロピー正規化 OT によって少数デモからのスケーラブルな模倣を実現する。
Imitation Learning describes the problem of recovering an expert policy from demonstrations. While inverse reinforcement learning approaches are known to be very sample-efficient in terms of expert demonstrations, they usually require problem-dependent reward functions or a (task-)specific reward-function regularization. In this paper, we show a natural connection between inverse reinforcement learning approaches and Optimal Transport, that enables more general reward functions with desirable properties (e.g., smoothness). Based on our observation, we propose a novel approach called Wasserstein Adversarial Imitation Learning. Our approach considers the Kantorovich potentials as a reward function and further leverages regularized optimal transport to enable large-scale applications. In several robotic experiments, our approach outperforms the baselines in terms of average cumulative rewards and shows a significant improvement in sample-efficiency, by requiring just one expert demonstration.
研究の動機と目的
- 報酬関数空間を動機づけし、模倣学習のために滑らかで解釈可能な報酬を生み出す。
- IRL/IL を Wasserstein 距離と結びつけるために最適輸送を活用し、専門家と学習ポリシー間の principled distance を提供。
- 正則化 OT を用いて最小限の専門家デモでポリシーを学習する、スケーラブルなアルゴリズム(WAIL)を開発。
- ロボット制御タスクで、WAIL がベースラインと比較して優れたサンプル効率と報酬を達成することを実証的に示す。
提案手法
- 簿 見習い学習を、占有測度 rho_pi と rho_E の間の Wasserstein 距離を用いてエントロピー正規化 IRL を最小化する形式として定式化し、 Kantorovich potentials を報酬として用いる。
- 状態-行動空間で基底コスト d を用いた1-Wasserstein距離を採用し、OT 双対でエントロピー正規化または L2 正規化を通じて Lipschitz(1) 正則性を課す。
- Kantorovich ポテンシャルを報酬関数 r_w とパラメータ化し、専門家とポリシーからのサンプルを用いた確率的勾配法で最適化、ポリシーはポリシー勾配とエントロピー正則化を併用して更新。
- KL 制約付き自然勾配ステップを用いた TRPO でポリシーを更新し、OT ステップが報酬関数を更新。
- KL-ステップの境界条件の下で収束を証明し、OT 報酬更新とポリシー更新を交互に行うアルゴリズム 1 (WAIL) を提示。
- 学習された報酬関数が有効で、ベースラインの識別器ベースの報酬より滑らかであることを示す。
実験結果
リサーチクエスチョン
- RQ1Wasserstein 距離を介した占有測度の間の距離は、模倣学習に対して principled で滑らかな報酬信号を提供するか。
- RQ2正則化された最適輸送は、連続制御タスクにおいて Jensen-Shannon ベースの adversarial 模倣法よりサンプル効率と性能を改善するか。
- RQ3Kantorovich potentials を報酬として学習・タスク間で転移できるモデルフリーな枠組みが成立するか。
- RQ4WAIL は専門家データの要件に関して、Generative Adversarial Imitation Learning (GAIL) や挙動クローンとどう比較されるか。
主な発見
- WAIL は複数の制御タスクで平均累積報酬の点でベースライン(GAIL および BC)より優れている。
- WAIL は専門家データ効率が高く、1つのデモのみで専門家の挙動に近づくことが多い。
- WAIL が学習した報酬表面は、特にデータセットが小さい場合、GAIL の識別器ベースの報酬より滑らかで有益である。
- 古典的な制御タスクでは、全ての手法が1つのデモでほぼ専門家性能に到達する一方、MuJoCo 環境の多くのタスクとデータ規模で WAIL が優勢。
- 理論的結果は、KL-ステップ減衰条件の下でアルゴリズムの収束を確立する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。