QUICK REVIEW

[論文レビュー] Deep Imitative Models for Flexible Inference, Planning, and Control

Nicholas Rhinehart, Rowan McAllister|arXiv (Cornell University)|Oct 15, 2018

Reinforcement Learning in Robotics参考文献 39被引用数 55

ひとこと要約

模倣モデルは専門家の軌跡の確率モデルを学習し、テスト時の目標尤度を用いて専門家に似た軌跡を計画し、報酬工学を用いずに柔軟な目標を達成するための模倣学習と計画を組み合わせます。

ABSTRACT

Imitation Learning (IL) is an appealing approach to learn desirable autonomous behavior. However, directing IL to achieve arbitrary goals is difficult. In contrast, planning-based algorithms use dynamics models and reward functions to achieve goals. Yet, reward functions that evoke desirable behavior are often difficult to specify. In this paper, we propose Imitative Models to combine the benefits of IL and goal-directed planning. Imitative Models are probabilistic predictive models of desirable behavior able to plan interpretable expert-like trajectories to achieve specified goals. We derive families of flexible goal objectives, including constrained goal regions, unconstrained goal sets, and energy-based goals. We show that our method can use these objectives to successfully direct behavior. Our method substantially outperforms six IL approaches and a planning-based approach in a dynamic simulated autonomous driving task, and is efficiently learned from expert demonstrations without online data collection. We also show our approach is robust to poorly specified goals, such as goals on the wrong side of the road.

研究の動機と目的

従来の模倣学習および報酬ベースの計画を超える柔軟なゴール指向制御の必要性を動機づける。
場面観測に条件付けられた専門家軌跡を予測する確率的模倣モデルを提案する。
模倣事前分布とテスト時のゴール尤度を組み合わせた計画目的を開発し、専門家に似た計画を生成する。
自動運転におけるさまざまなゴール仕様とテスト時条件に対するロバスト性と柔軟性を示す。

提案手法

オフラインのデモンストレーションから専門家軌跡を予測する模倣モデル q(S1:T | φ) を訓練する。
専門家に似た挙動をモデル化し勾配法による計画を可能にする確率的軌道密度（R2P2 ベースの自己回帰フロー）を用いる。
事後確率最大化計画目的を定式化する： s* = argmax_s log q(s|φ) + log p(G|s,φ) - log p(G|φ)。
diverse なゴール尤度 p(G|s,φ) を構築する：Final-State Indicator（領域/線/点の制約）、Gaussian Final-State（単一または複数の未来状態）、Gaussian State Sequence、Gaussian Final-State Mixture 及びオプションのテスト時コスト。
ルートウェイポイントをゴールとして、CARLA の自動運転向けに、LIDAR/カメラ入力とPID低レベルコントローラを用いてモデルを構築する。
過去の状態、知覚 χ、交通信号 λ、潜在変数 Z などを含む入力を用いて q(S|φ) をパラメータ化する注意機構付きニューラルアーキテクチャ（mθ, σθ）を採用する。

実験結果

リサーチクエスチョン

RQ1報酬工学なしで、オフラインで学習した模倣モデルが解釈可能で専門家に似た多段階計画を生成できるか。
RQ2訓練時に見られなかったゴール（例：領域ベースのゴール、路面の pothole 回避）をテスト時に達成する柔軟性はどれくらいか。
RQ3ノイズのある、誤指定されたゴール、デコイウェイポイントに対するゴール指定の頑健性はどうか。
RQ4標準センサ入力（ウェイポイント、LIDAR）を用いたCARLA のダイナミックなベンチマークで提案手法は最先端性能を達成するか。
RQ5テスト時コストの組み込みやさまざまなゴール尤度の形式が計画品質に与える影響はどうか。

主な発見

本手法は報酬工学なしで解釈可能で専門家に似た多段階計画を生成し、CARLA で6つの模倣学習アプローチおよび計画ベースのベースラインを上回る。
さまざまなゴール尤度を用いた模倣計画は、訓練時およびテスト時の中合条件（ダイナミックな場面を含む）で高い性能を発揮する。
本手法はノイズのある、誤指定されたゴール（道路の反対側のゴールやデコイウェイポイントを含む）に対しても頑健性を示す。
実験では一般的な自動運転入力（ウェイポイントと LIDAR）を用いてCARLAで最先端または競合レベルの性能を達成した。
テスト時コスト（ pothole 回避など）を組み込むことがあり、安全でゴール指向の振る舞いを訓練では示されていない形で生み出すことができる。
このフレームワークは模倣事前分布とゴール尤度を活用することで再訓練なしに新しいタスクへ柔軟性を持つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。