QUICK REVIEW

[論文レビュー] Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement

Chao Yang, Xiaojian Ma|arXiv (Cornell University)|Oct 10, 2019

Reinforcement Learning in Robotics被引用数 27

ひとこと要約

本稿では、逆運動力学モデルの専門家と模倣者との間の不一致を最小化することで、LfO（観測からの学習）とLfD（模倣からの学習）の性能差を縮小する、モデルフリーな手法であるInverse-Dynamics-Disagreement-Minimization (IDDM) を提案する。この不一致の上界を負因果エントロピーとして導出し、その最小化により、困難な制御ベンチマークにおいて模倣性能が向上し、GAIfOを含む先行するLfO手法を一貫して上回る。

ABSTRACT

This paper studies Learning from Observations (LfO) for imitation learning with access to state-only demonstrations. In contrast to Learning from Demonstration (LfD) that involves both action and state supervision, LfO is more practical in leveraging previously inapplicable resources (e.g. videos), yet more challenging due to the incomplete expert guidance. In this paper, we investigate LfO and its difference with LfD in both theoretical and practical perspectives. We first prove that the gap between LfD and LfO actually lies in the disagreement of inverse dynamics models between the imitator and the expert, if following the modeling approach of GAIL. More importantly, the upper bound of this gap is revealed by a negative causal entropy which can be minimized in a model-free way. We term our method as Inverse-Dynamics-Disagreement-Minimization (IDDM) which enhances the conventional LfO method through further bridging the gap to LfD. Considerable empirical results on challenging benchmarks indicate that our method attains consistent improvements over other LfO counterparts.

研究の動機と目的

専門家の行動が入手不可である状態のみの模倣学習（LfO）の課題に対処すること。これは、行動教師付きのLfDと比較して性能が制限される要因である。
GAILモデリングフレームワーク下で、LfOとLfDの性能差が専門家と模倣者の逆運動力学モデルの不一致に起因することを理論的に特定すること。
この不一致を最小化するモデルフリー手法を提案し、LfO性能を向上させること。
多様な制御ベンチマーク上で本手法を実証的に検証し、既存のLfOベースラインに対して一貫した性能向上を示すこと。

提案手法

本手法は、GAILモデリングフレームワーク下で、LfOとLfDの性能差を専門家と模倣者の逆運動力学モデルの不一致として定式化する。
この不一致の上界を、状態-行動占有測度の負因果エントロピーとして導出し、モデルフリーな方法で最小化する。
負エントロピー項には相互情報量（MI）成分が含まれており、これによりMINE推定器を用いて効率的な学習が可能になる。
本手法は2つのハイパーパrameterを導入する：ポリシーのエントロピー正則化のためのλpと、MI項の重み付けのためのλsであり、両者ともアブレーションを用いて最適化される。
本手法は、専門家の状態軌道のみを用いて、GAIL風の敵対的フレームワークでエンドツーエンドに実装される。
本手法は、ロケモーションおよび操作タスクを含む、高次元の行動空間を持つ連続的制御環境に適用される。

実験結果

リサーチクエスチョン

RQ1GAILベースのモデリングを用いる場合、LfOとLfDの性能差の理論的起源は何か？
RQ2専門家と模倣者の逆運動力学モデルの不一致を最小化することで、LfOにおける性能差を埋め合わせることができるか？
RQ3性能差の上界を、モデルフリーに最適化可能な負因果エントロピーとして表現できるか？
RQ4提案手法IDDMは、GAIfOなどの既存のLfOベースラインと比較して、多様な制御タスクでどのように性能を発揮するか？
RQ5ポリシーのエントロピー項と相互情報量項は、IDDMの最終的性能にそれぞれどのように寄与しているか？

主な発見

Gridworld環境では、1つの行動選択肢においてIDDMは87.3±1.8%の成功確率を達成し、GAIfOの86.8±1.3%およびGAILの86.0±3.0%を上回った。
11つの行動選択肢では、IDDMは49.0±8.6%の成功確率に達し、GAIfOの28.3±6.2%およびGAILの69.0±4.0%を顕著に上回った。
HalfCheetahでは、λs=0.1およびλp=0.001の設定で、IDDMは平均報酬5540.5±100.3を達成し、ベースラインのGAIfO（4658.0±90.2）および他のアブレーション設定を上回った。
アブレーションスタディの結果、ポリシーのエントロピー（λp）と相互情報量（λs）の両項が性能向上に寄与しており、特にλsがより顕著で一貫性のある影響を示した。
グリッドサーチの結果、MI項を追加することで、すべてのハイパーパrameter設定において性能が向上し、λsが増加するにつれてその向上幅も増加した。
IDDMは、CartPole、Pendulum、Hopper、Halfcheetah、Ant、DoublePendulumを含む全7つのベンチマーク環境において、GAIfOを一貫して上回る性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。