Skip to main content
QUICK REVIEW

[論文レビュー] Directed-Info GAIL: Learning Hierarchical Policies from Unsegmented Demonstrations using Directed Information

Arjun Sharma, Mohit Sharma|arXiv (Cornell University)|Sep 29, 2018
Machine Learning and Algorithms参考文献 25被引用数 29
ひとこと要約

本論文は、部分的タスクの潜在変数と観測された軌道の間の指向的情報(directed information)を最大化することで、区切りのない専門家のデモンストレーションから階層的方策を学習する生成的対抗的模倣学習フレームワーク、Directed-Info GAILを提案する。因果的グラフィカルモデルを用いて部分的タスクの遷移をモデル化し、相互情報量の代わりに指向的情報を利用するため、意味のある部分的タスク構造を自動で発見でき、部分的タスク方策とそれらの間を切り替えるマクロ方策の両方を学習する。連続制御環境における分割とタスク完了の両面で、ベースラインのGAILおよびVAE手法を上回る性能を発揮する。

ABSTRACT

The use of imitation learning to learn a single policy for a complex task that has multiple modes or hierarchical structure can be challenging. In fact, previous work has shown that when the modes are known, learning separate policies for each mode or sub-task can greatly improve the performance of imitation learning. In this work, we discover the interaction between sub-tasks from their resulting state-action trajectory sequences using a directed graphical model. We propose a new algorithm based on the generative adversarial imitation learning framework which automatically learns sub-task policies from unsegmented demonstrations. Our approach maximizes the directed information flow in the graphical model between sub-task latent variables and their generated trajectories. We also show how our approach connects with the existing Options framework, which is commonly used to learn hierarchical policies.

研究の動機と目的

  • 区切りのない、構造のない専門家のデモンストレーションから階層的方策を学ぶ課題に対処すること。
  • 学習中に未観測の将来状態に依存する相互情報量に基づく手法の限界を克服すること。
  • 事前に分割されたデモンストレーションが不要な状態で、部分的タスク固有の方策とそれらの間を切り替えるマクロ方策の両方を学習すること。
  • 情報理論的視点から、提案手法を階層強化学習におけるオプションフレームワークと結びつけること。
  • 行動コーディングにおける蓄積誤差を低減することで、模倣学習のロバスト性を向上させること。

提案手法

  • 本手法は、部分的タスクの潜在変数と状態・行動の軌道の間の相互作用を、動的ベイジアンネットワークとして表現される因果的グラフィカルモデルでモデル化する。
  • 過去の観測に依存する因果的依存関係を保証するため、軌道から潜在要因への指向的情報を最大化することで、将来依存性なしに逐次学習を可能にする。
  • 生成的対抗的模倣学習(GAIL)を拡張し、部分的タスクの識別をエンコードする潜在変数モデルを組み込み、方策生成を条件づける。
  • 識別器は、専門家の軌道と生成された軌道を区別するように訓練され、生成器(方策)は潜在コードへの指向的情報フローを最大化するように最適化される。
  • 観測された過去の状態と行動に基づいて、部分的タスク間の遷移を因果的に条件づけた確率分布を用いてモデル化する。
  • 本手法はオプションフレームワークと接続されており、潜在変数がオプションに対応し、マクロ方策がオプションの切り替えを制御する。

実験結果

リサーチクエスチョン

  • RQ1区切りのない専門家のデモンストレーションから、事前の分割なしに指向的情報を用いて部分的タスク構造を発見できるか?
  • RQ2階層的模倣学習において、相互情報量と比較して指向的情報を最大化することで、方策学習がどのように向上するか?
  • RQ3提案手法は、生の、構造のないデモンストレーションから部分的タスク方策とそれらの間を切り替えるマクロ方策の両方を学習できるか?
  • RQ4複雑な制御タスクにおいて、標準的なGAILおよびVAEベースラインと比較して、本手法のパフォーマンスはどの程度向上するか?
  • RQ5オプションフレームワークとの統合は、階層的模倣学習における解釈可能性とパフォーマンスをどのように向上させるか?

主な発見

  • FetchPickandPlace-v1環境において、Directed-Info GAIL + L2損失は100エピソードで平均報酬-9.47 ± 4.84を達成し、GAIL(-13.29 ± 5.84)およびVAE(-14.07 ± 5.57)を顕著に上回った。
  • 行動一致用のL2損失を追加することでパフォーマンスが著しく向上し、提案手法はGAILに比べてより一貫した grasping 行動を示した。
  • 定性的な分析から、Directed-Info GAILのエージェントはGAILエージェントよりも物体をより信頼性高くつかんでいた。GAILエージェントは、グリッパーを正しく閉じないか、あるいは過剰に早く閉じる傾向があった。
  • 本手法は、Fetch環境において、PickとPlaceといった意味のある部分的タスクに専門家のデモンストレーションを効果的に分割できた。
  • 本手法は、正確で繊細な動作(例:つかみ)を要するタスクにおいて、より優れた一般化性能と蓄積誤差の低減を示した。
  • 結果から、フィードバック豊富な因果モデルにおいて、指向的情報は相互情報量よりもより良い情報フローの上界を提供することが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。