QUICK REVIEW

[論文レビュー] Imitating Latent Policies from Observation

Ashley D. Edwards, Himanshu Sahni|arXiv (Cornell University)|May 21, 2018

Reinforcement Learning in Robotics参考文献 30被引用数 43

ひとこと要約

ILPO は expert state observations から latent policies を学習し、環境との少量の相互作用を用いて latent actions を real actions にマッピングし、expert actions を使わずに imitation を実現し、Observation からの BC をいくつかの領域で上回る。

ABSTRACT

In this paper, we describe a novel approach to imitation learning that infers latent policies directly from state observations. We introduce a method that characterizes the causal effects of latent actions on observations while simultaneously predicting their likelihood. We then outline an action alignment procedure that leverages a small amount of environment interactions to determine a mapping between the latent and real-world actions. We show that this corrected labeling can be used for imitating the observed behavior, even though no expert actions are given. We evaluate our approach within classic control environments and a platform game and demonstrate that it performs better than standard approaches. Code for this work is available at https://github.com/ashedwards/ILPO.

研究の動機と目的

expert actions にアクセスできずに、state observations から潜在ポリシーを推定する。
潜在アクションを条件として次状態を予測する潜在前方ダイナミクスモデルを学習する。
最小限の環境相互作用を用いて潜在アクションを実際のアクションに整合させるアクションリマッピング機構を開発する。
古典的制御タスクと視覚プラットフォームゲームにおける ILPO の有効性を、BCO などのベースラインと比較して示す。

提案手法

状態を与えられたときに、前方ダイナミクスモデル G と潜在アクション z の事前分布を同時に学習する潜在ポリシーネットワークを訓練する。
G(s, z) を用いて状態差 Δt = st+1 − st を予測し、Δt と ||Δt − G(Ep(st), z)||^2 の z に対する最小値を最小化して多峰性の遷移を捉える。
潜在分布下での期待次状態と観測された次状態を一致させることにより、潜在ポリシー πω(z|st) を学習する。
限られた環境相互作用で訓練された、潜在アクションを実際のアクションへ写像するアクションリマッピングネットワークπξ(a|z, Ea(st)) と組み合わせる。
2 段階のプロセスを用いる：観測からのオフライン潜在ポリシー学習を行い、次に少数の相互作用によるグラウンドトゥルーなアクションリマッピングを通じて模倣を可能にする。

実験結果

リサーチクエスチョン

RQ1expert actions にアクセスできずに、state observations から推定された潜在アクションは、基となるアクションの影響を捉えることができるか？
RQ2模倣を進めるために、潜在アクションと実際のアクションを揃えるのに必要な環境相互作用はどれくらいか？
RQ3オフライン潜在ダイナミクスの学習と最小限のアクションリマッピングを組み合わせることで、より多くの環境データを要する Observation からの模倣ベースラインを上回るか？
RQ4このアプローチは離散アクションMDPと高次元観測を伴う視覚プラットフォームゲームの両方で頑健か？

主な発見

ILPO は CartPole および Acrobot で 100 未満の環境ステップでエキスパートレベルの性能を達成する。
ILPO は classic control tasks で Observation からの Behavioral Cloning を上回る。
CoinRun では ILPO は BCO を上回るが、すべてのシードやレベルでエキスパート性能に到達しない場合があり、高次元の視覚タスクの難易度の高さを反映している。
潜在アクション集合サイズ |Z| を真のアクション数 |A| に近づけることは有益だが、他のサイズでも学習可能。
アクションリマッピングのステップは潜在アクションを実際のアクションに整列させるために比較的少ない相互作用を必要とし、オンラインでダイナミクスを学習する BCO に比べてサンプル複雑さを低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。