QUICK REVIEW

[論文レビュー] BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning

Eric Jang, Alex Irpan|arXiv (Cornell University)|Feb 4, 2022

Robot Manipulation and Learning参考文献 30被引用数 89

ひとこと要約

BC-Zは、言語または人間のビデオに条件づけられた大規模で対話的な模倣ポリシーを学習することにより、新規の視覚ベースの操作タスクに対するゼロショットおよび少数ショット一般化を研究し、デモなしでこれらのタスクに対して平均44%の成功率で、未見の24タスクを達成する。

ABSTRACT

In this paper, we study the problem of enabling a vision-based robotic manipulation system to generalize to novel tasks, a long-standing challenge in robot learning. We approach the challenge from an imitation learning perspective, aiming to study how scaling and broadening the data collected can facilitate such generalization. To that end, we develop an interactive and flexible imitation learning system that can learn from both demonstrations and interventions and can be conditioned on different forms of information that convey the task, including pre-trained embeddings of natural language or videos of humans performing the task. When scaling data collection on a real robot to more than 100 distinct tasks, we find that this system can perform 24 unseen manipulation tasks with an average success rate of 44%, without any robot demonstrations for those tasks.

研究の動機と目的

視覚ベースのロボット操作における広範な一般化のためのデータ収集のスケールアップ。
代替的なタスク指定（言語または動画）を用いて、新しいタスクへのゼロショットおよび少数ショット一般化を可能にする。
共有自律性とHG-DAggerを用いた対話的模倣学習がデータ品質と一般化にどのような影響を与えるかを調査する。
タスク条件付け信号（言語埋め込み vs. 動画埋め込み）が未知タスク一般化を最も効果的に支援するのはどこかを検討する。

提案手法

実機ロボット上で、100の操作タスクにわたる25,877件のデモンストレーションからなる大規模データセットを収集する。
言語文字列または人間ビデオから導出されたタスク埋め込みに条件づけられた7-DoFのマルチタスクポリシーを訓練する。
タスク指示（言語または動画）を512次元埋め込みzにマッピングするエンコーダq(z|w)を使用する。
FiLM層を介してzに条件づけし、視覚-運動制御に影響を与える。
デプロイ時に人間が介入してエラーを正し、修正を提供できるようHG-DAggerを介した共有自律性を組み込む。
ビデオ埋め込みを言語埋め込みと整合させる補助的な言語回帰損失を活用する（z_hとz_ℓのコサイン類似度）。

実験結果

リサーチクエスチョン

RQ1BC-Zは、言語または人間のビデオによって説明された新しいタスクへゼロショットで一般化できるか？
RQ2一般化の性能は、タスク埋め込み（エンコーダ）かポリシー自体（コントローラ）によってボトルネックになっているか？
RQ3HG-DAggerデータ収集と適応的状態差分ターゲットは学習にとってどれくらい重要か？
RQ4言語とビデオのタスク条件付けのどちらを使うとゼロショットおよび少数ショット一般化に有利か？

主な発見

100タスクでの訓練は、訓練中に見られていない言語記述に条件付けられた場合で、未見の24タスクに対して44%の平均成功率で一般化を可能にする。
言語条件付けポリシーは、保持アウトタスクで非ゼロの成功を達成する（平均32%のゼロショット；未見の言語で44%を達成するいくつかのホールドアウト）、一方で動画条件付けポリシーは、特に対象外間の一般化で制限的。
単一タスクポリシーは限定データでホールドアウトタスクに失敗するが、データをプールしたマルチタスク学習はパフォーマンス向上に不可欠。
HG-DAggerデータ収集は、複数の訓練タスクにわたって専門家デモだけの場合と比較してタスク成功を改善する。
言語埋め込みは追加の訓練なしで強力で安定したタスク条件付け信号を提供し、介入頻度がポリシー性能と相関しており、評価のライブ代理として機能する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。