Skip to main content
QUICK REVIEW

[論文レビュー] Imitation Learning as $f$-Divergence Minimization

Liyiming Ke, Sanjiban Choudhury|arXiv (Cornell University)|May 30, 2019
Anomaly Detection Techniques and Applications被引用数 39
ひとこと要約

本論文は、学習者と専門家の軌跡分布間のf-divergencesを最小化することとして模倣学習を統合し、逆KLが多モーダルなデモンストレーションに対してモード探索的であること、特定のタスクでモードカバーリングKL/JSを上回る可能性があることを示し、BC、GAIL、DAggerを特別な場合として回収する。

ABSTRACT

We address the problem of imitation learning with multi-modal demonstrations. Instead of attempting to learn all modes, we argue that in many tasks it is sufficient to imitate any one of them. We show that the state-of-the-art methods such as GAIL and behavior cloning, due to their choice of loss function, often incorrectly interpolate between such modes. Our key insight is to minimize the right divergence between the learner and the expert state-action distributions, namely the reverse KL divergence or I-projection. We propose a general imitation learning framework for estimating and minimizing any f-Divergence. By plugging in different divergences, we are able to recover existing algorithms such as Behavior Cloning (Kullback-Leibler), GAIL (Jensen Shannon) and Dagger (Total Variation). Empirical results show that our approximate I-projection technique is able to imitate multi-modal behaviors more reliably than GAIL and behavior cloning.

研究の動機と目的

  • 単一のモードが選好されない多モーダルなデモンストレーションから模倣学習を動機づける。
  • 既存の方法を包含する、ILの統一的なf-divergence minimizationフレームワークを提案する。
  • 軌跡分布または状態-行動レベルの分布を用いて、 learner と expert の分布間のf-divergencesを最小化する推定量を開発する。
  • 逆KL(モード探索的)の利点を、多モーダルなデモンストレーションを安全に扱う点で強調する。

提案手法

  • ILを、学習者と専門家の軌跡分布間の D_f を最小化することとして形式化する。
  • 平均状態-行動分布間の D_f を最小化すると、軌跡の発散が下界付けられることを示す(Theorem 3.1)。
  • 識別器に似た関数 (phi) および凸共役 (f*) を用いて D_f を推定する変分下界を導入する。
  • chosen f-divergence に対して、learner (policy) と discriminator の鞍点を最適化する Algorithm f–VIM を提示する。
  • KL-VIM、RKL-VIM、JS-VIM は、それぞれ BC、GAIL、関連アプローチに対応する特別なケースであることを示す。

実験結果

リサーチクエスチョン

  • RQ1軌跡分布間のf-divergencesを最小化することは、多モーダルな専門家デモンストレーションの下で頑健な模倣学習を生み出すか。
  • RQ2異なる f-divergences(KL、JS、TV、逆KL)は、ILにおけるモードカバーリングとモード崩壊の挙動にどのような影響を与えるか。
  • RQ3統一的な変分フレームワークは、既存のIL手法(BC、GAIL、DAgger)を回復・接続し、多モーダルデータに対して実践的な利点を提供できるか。
  • RQ4実世界の連続領域でILに reverse KL を用いる際の実践的な推定/評価上の考慮事項は何か。

主な発見

  • Reverse KL (I-projection) はモード探索的で、デモンテータのモードのサブセットへ崩壊する傾向があり、多モーダルなタスクにおいて安全性と信頼性を向上させる可能性がある。
  • KLとJSはモードカバーリングで、モード間を補間できるため、設定によっては安全でない挙動につながることがある。
  • f–VIMフレームワークは、異なるf-divergencesを介してBehavior Cloning (KL)、GAIL (JS)、DAgger (TV) を特別なケースとして包含する。
  • 高次元の連続タスクにおいて、RKL–VIMは一部の環境(例: MuJoCo)でJS–VIM/GAILと比較して漸近的報酬が高くなることがあり、識別器の強調の差が観察される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。