QUICK REVIEW

[論文レビュー] Learning Language-Conditioned Robot Behavior from Offline Data and Crowd-Sourced Annotation

Suraj Nair, Eric Mitchell|arXiv (Cornell University)|Sep 2, 2021

Multimodal Machine Learning Applications被引用数 23

ひとこと要約

本論文では、オフラインで収集された劣化したロボットデータとクラウドソーシングによる自然言語アノテーションを用いて、言語に依存するロボット行動を学習するLOReLという手法を提案する。言語指示と状態遷移のペアを用いて言語に依存する報酬分類器を訓練することで、LOReLは視覚的モデル予測制御を可能にし、現実世界の言語指定型操作タスクで平均66%の成功を達成した。これは、ゴール画像ベースおよび模倣学習ベースの手法を25%以上上回った。

ABSTRACT

We study the problem of learning a range of vision-based manipulation tasks from a large offline dataset of robot interaction. In order to accomplish this, humans need easy and effective ways of specifying tasks to the robot. Goal images are one popular form of task specification, as they are already grounded in the robot's observation space. However, goal images also have a number of drawbacks: they are inconvenient for humans to provide, they can over-specify the desired behavior leading to a sparse reward signal, or under-specify task information in the case of non-goal reaching tasks. Natural language provides a convenient and flexible alternative for task specification, but comes with the challenge of grounding language in the robot's observation space. To scalably learn this grounding we propose to leverage offline robot datasets (including highly sub-optimal, autonomously collected data) with crowd-sourced natural language labels. With this data, we learn a simple classifier which predicts if a change in state completes a language instruction. This provides a language-conditioned reward function that can then be used for offline multi-task RL. In our experiments, we find that on language-conditioned manipulation tasks our approach outperforms both goal-image specifications and language conditioned imitation techniques by more than 25%, and is able to perform visuomotor tasks from natural language, such as "open the right drawer" and "move the stapler", on a Franka Emika Panda robot.

研究の動機と目的

一般化ロボットが自然言語指示から多様な視覚的モータ操作タスクを学習できるようにすること。
スケーラブルで専門家を必要としないデータ収集手法を用いて、高次元のロボット観測空間における言語の意味の定着を実現すること。
劣化した、自律的に収集されたオフラインデータとクラウドソーシングによる言語アノテーションを組み合わせ、効率的な言語に依存するポリシー学習を実現する手法を開発すること。
柔軟でゴール到達を必要としないタスク指定を可能にし、一般化性能とスパarsな報酬処理を向上させる点で、ゴール画像ベースおよび模倣学習ベースの手法を凌駕すること。

提案手法

行動ラベルなしで、ランダム、スクリプトベース、または強化学習ベースのポリシーによって収集された劣化したロボット軌道のオフラインデータセットを活用する。
クラウドソーシング（例：Amazon Mechanical Turk）を用いて、各軌道に対して実行された行動の自然言語記述をアノテートする。
初期状態から最終状態への状態遷移が、与えられた自然言語指示を満たすかどうかを予測する2値分類器を訓練する。
訓練済み分類器をオフライン強化学習における言語に依存する報酬関数として用い、マルチタスクポリシー学習を実現する。
学習済み報酬と視覚的モデル予測制御、および学習済みダイナミクスモデルを組み合わせ、実ロボット上で言語指定タスクを実行する。
時間的整合性の向上と過学習の防止のため、初期状態と最終状態を反転させた負例を訓練に組み込む。

実験結果

リサーチクエスチョン

RQ1劣化した、自律的に収集されたオフラインデータから、言語に依存する視覚的モータポリシーを効果的に学習できるか？
RQ2このようなデータに対してクラウドソーシングによる自然言語アノテーションが、専門家による遠隔操作データを必要とせずに、堅牢な言語の意味の定着を可能にするか？
RQ3LOReLの言語に依存する報酬は、ゴール画像ベースおよび模倣学習ベースの手法と比較して、成功確率および一般化性能においてどのように差をつけるか？
RQ4学習済み報酬は、未観測の再表現された自然言語指示に対し、どの程度一般化できるか？
RQ5本手法は、自然言語指定による現実世界の長時間スケールの操作タスクにおいて、高い性能を達成できるか？

主な発見

LOReLは、Franka Emika Pandaロボットを用いた5つの現実世界の言語に依存するタスクにおいて、平均66%の成功率を達成した。タスク例として「右の引き出しを開ける」や「ステープラーを動かす」が含まれる。
負例（状態を反転させたもの）を除去すると、性能が30%低下した。これは、時間的進行の学習において負例の重要性を裏付けている。
シミュレーション環境において、LOReLは言語に依存する模倣学習およびゴール画像ベースのベースラインを25%以上上回った。
本手法は、複雑な言い換えに対しても頑健であり、『左にある小さな黒と白の引き出しを完全に開ける』という指示に対して70%の成功率を示し、『黒い机の上に小さなグレーのステープラーを動かす』に対しては50%の成功率を示した。
事前学習済み言語モデルの使用により、未観測の自然言語指示に対してもゼロショット一般化が可能であり、言語知識の有効な転移が示された。
最適な軌道や専門家による行動アノテーションを必要とせず、現実世界のタスクに一般化可能であることを示しており、スケーラビリティと実用性を実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。