QUICK REVIEW

[論文レビュー] Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization

Chelsea Finn, Sergey Levine|arXiv (Cornell University)|Mar 1, 2016

Optical Imaging and Spectroscopy Techniques被引用数 369

ひとこと要約

本論文はGuided Cost Learningを提案し、未知のダイナミクスと高次元システムを扱うために最大エントロピー IOCとポリシー最適化を統合してデモから非線形コスト関数（例：ニューラルネットワーク）を学習し、ロボットタスクでの性能とサンプル効率を向上させる。

ABSTRACT

Reinforcement learning can acquire complex behaviors from high-level specifications. However, defining a cost function that can be optimized effectively and encodes the correct task is challenging in practice. We explore how inverse optimal control (IOC) can be used to learn behaviors from demonstrations, with applications to torque control of high-dimensional robotic systems. Our method addresses two key challenges in inverse optimal control: first, the need for informative features and effective regularization to impose structure on the cost, and second, the difficulty of learning the cost function under unknown dynamics for high-dimensional continuous systems. To address the former challenge, we present an algorithm capable of learning arbitrary nonlinear cost functions, such as neural networks, without meticulous feature engineering. To address the latter challenge, we formulate an efficient sample-based approximation for MaxEnt IOC. We evaluate our method on a series of simulated tasks and real-world robotic manipulation problems, demonstrating substantial improvement over prior methods both in terms of task complexity and sample efficiency.

研究の動機と目的

エキスパートのデモからタスクコストを学習させ、手作りの特徴を使わずに複雑なロボティクス挙動を実現する。
IOCの過小定義を克服し、表現力のある非線形コスト表現（ニューラルネットワーク）を可能にする。
未知のダイナミクスと高次元の状態/行動空間に対処するために、サンプルベースのIOCとポリシー最適化を組み合わせる。
実機ロボットでの実用展開を可能にするため、コストとコントローラを共同学習して設計負担を低減する。

提案手法

デモが未知のコストc_thetaの下でほぼ最適であるという前提の最大エントロピーIOCを採用する。
手作り特徴を避けるため、 rawな状態入力上で動作するニューラルネットワークを用いてc_thetaを表現する。
部屋的なZの分配関数を推定するため、重要度サンプリングを用いたIOC目的関数のサンプルベース近似を用いる。
IOC最適化を、軌道分布q(tau)をexp(-c_theta(tau))へと適応させるポリシー最適化手続きと組み合わせて適時挿入する。
デモと軌道サンプルを用いて確率的勾配でコストパラメータthetaを更新する。
局所的に一定レート（lcr）と単調性（mono）を用いた正則化項で非線形コストの過剰適合を抑制する。
学習済みのポリシーを実装するための学習済みの時変線形ガウスコントローラq(u_t|x_t)を提供する。

実験結果

リサーチクエスチョン

RQ1未知のダイナミクスを持つIOC設定で、表現力のある非線形コスト関数はデモから学習できるか？
RQ2ポリシー最適化による適応サンプリングはIOC分配関数の推定と最終コスト品質を改善するか？
RQ3手作り特徴なしで高次元のロボットシステムや現実世界のトルク制御タスクを扱えるか？
RQ4エピソード型ロボタスクにおける正則化手法は一般化と過剰適合の抑制を改善するか？
RQ5新しいタスクのインスタンスでコストとコントローラの両方を学習する方が、固定のコストを再利用するより有益か？

主な発見

この手法はデモから非線形コスト（例：ニューラルネットワーク）を学習し、未知のダイナミクスを持つシミュレーションタスクで従来のIOC手法より優れている。
Guided cost learningとポリシー最適化を組み合わせることでサンプル効率が向上し、高次元ロボットタスク（例：7-DOFアームのピン挿入）をサポートする。
正則化項（局所的一定レートと単調性）は過剰適合を抑制し、エピソード型タスクでの学習を改善する。
実機PR2ロボットタスクで、線形のコストが失敗した領域でも導入されたGuided Cost Learningが大きな成果を挙げ、皿の配置や視覚特徴を伴う注ぎなどを含む。
このアプローチは新しいタスクインスタンスで学習されたコストと、それに対応するコントローラの両方を提供し、 learned behaviorsを実行するのに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。