QUICK REVIEW

[論文レビュー] One-Shot Visual Imitation Learning via Meta-Learning

Chelsea Finn, Tianhe Yu|arXiv (Cornell University)|Sep 14, 2017

Human Pose and Action Recognition参考文献 27被引用数 267

ひとこと要約

この論文は勾配ベースのメタ学習と模倣学習を組み合わせ、ロボットが単一の視覚デモンストレーションから新しいスキルを取得できるようにし、生のピクセル入力やビデオのみのデモンストレーションにも対応するスケーラビリティを実現します。

ABSTRACT

In order for a robot to be a generalist that can perform a wide range of jobs, it must be able to acquire a wide variety of skills quickly and efficiently in complex unstructured environments. High-capacity models such as deep neural networks can enable a robot to represent complex skills, but learning each skill from scratch then becomes infeasible. In this work, we present a meta-imitation learning method that enables a robot to learn how to learn more efficiently, allowing it to acquire new skills from just a single demonstration. Unlike prior methods for one-shot imitation, our method can scale to raw pixel inputs and requires data from significantly fewer prior tasks for effective learning of new skills. Our experiments on both simulated and real robot platforms demonstrate the ability to learn new tasks, end-to-end, from a single visual demonstration.

研究の動機と目的

多くのスキルを迅速に学ぶ汎用的なロボットの必要性を動機づける。
タスク間で経験を再利用してデータ効率を向上させる。
生の視覚入力からのエンドツーエンド学習を実現し、迅速な適応を可能にする。
単一のデモンストレーションからワンショット模倣を可能にするメタ学習フレームワークを開発する。
シミュレーションと物理ロボットの両方で実世界適用性を実証する。

提案手法

視覚入力からの模倣学習へモデル非依存型メタ学習（MAML）を拡張する。
デモンストレーションを用いて1回の勾配更新で新しいタスクへ適応する方策を訓練する。
最終層が実質的にメタ学習済みの内的目的となる2ヘッドアーキテクチャを導入する。
勾配ベースの適応を高めるためにバイアス変換を組み込む。
適応のための訓練/検証分割を模擬するため、タスクごとにデモンストレーションのペアでメタ訓練を行う。
オプションでロス関数を学習する（2ヘッド構成を通じて）ことで専門家の行動なしの適応を可能にする。

Figure 1: The robot learns to place a new object into a new container from a single demonstration.

実験結果

リサーチクエスチョン

RQ1生のピクセル入力からのワンショット模倣学習は、単一の視覚デモンストレーションから見たことのないタスクに適応できるか？
RQ2データセットサイズと入力モダリティ（視覚 vs. 非視覚）全体で、メタ模倣学習（MIL）は従来のワンショット模倣法とどう比較されるか？
RQ3本手法は専門家の行动を含まないデモ（ビデオのみのデモンストレーション）から学習できるか？
RQ4MILは実世界のロボットタスク、実画像と実物体にスケールするか？

主な発見

新しい物体や目標へ適応する必要があるビジョンベースのタスクで、MILは従来のワンショット模倣法を上回る。
保持された物体を用いたシミュレーションの押し出しで、動画+状態+行動入力が与えられた場合、MILは最大85.81%のワンショット成功を達成し、ベースラインを上回る。
押し出しタスクでビデオのみのデモンストレーションを用いた場合、MILは68.33%のワンショット成功を達成。
PR2ロボットによる実世界の配置タスクで、単一のデモンストレーションを用いて held items を正しい容器に配置する際、MILは90%のワンショット成功を達成。
ビデオのみのデモンストレーションによるMILは実現可能性を保つ（配置で68.33%）が、追加データやモダリティの恩恵を受ける。
2ヘッドおよびバイアス変換の変種は、勾配ベースの適応の安定性と性能を向上させる。

Figure 2: Diagrams of the policy architecture with a bias transformation (top and bottom) and two heads (bottom). The green arrows and boxes indicate weights that are part of the meta-learned policy parameters $\theta$ .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。