Skip to main content
QUICK REVIEW

[論文レビュー] Grounding Language in Play.

Corey Lynch, Pierre Sermanet|arXiv (Cornell University)|May 15, 2020
Multimodal Machine Learning Applications参考文献 41被引用数 33
ひとこと要約

この論文では、自己教師ありロボットプレイ体験と後から言語を対応付けることで、自然言語にロボット方針を接地するスケーラブルな手法を提案している。マルチコンテキストの模倣を用いて、1つのエージェントを訓練し、テスト時に言語ゴールに従うようにしている。このアプローチにより、言語対応付けコストを体験全体の1%未満に削減し、16言語で数千の新しい指示にゼロショット一般化を実現している。

ABSTRACT

Natural language is perhaps the most versatile and intuitive way for humans to communicate tasks to a robot. Prior work on Learning from Play (LfP) [Lynch et al, 2019] provides a simple approach for learning a wide variety of robotic behaviors from general sensors. However, each task must be specified with a goal image---something that is not practical in open-world environments. In this work we present a simple and scalable way to condition policies on human language instead. We extend LfP by pairing short robot experiences from play with relevant human language after-the-fact. To make this efficient, we introduce multicontext imitation, which allows us to train a single agent to follow image or language goals, then use just language conditioning at test time. This reduces the cost of language pairing to less than 1% of collected robot experience, with the majority of control still learned via self-supervised imitation. At test time, a single agent trained in this manner can perform many different robotic manipulation skills in a row in a 3D environment, directly from images, and specified only with natural language (e.g. open the drawer...now pick up the block...now press the green button...). Finally, we introduce a simple technique that transfers knowledge from large unlabeled text corpora to robotic learning. We find that transfer significantly improves downstream robotic manipulation. It also allows our agent to follow thousands of novel instructions at test time in zero shot, in 16 different languages. See videos of our experiments at this http URL

研究の動機と目的

  • オープンワールドにおけるロボット操作タスクで、各タスクごとにゴール画像を必要としない現実的でない課題に対処する。
  • 人間によるゴールのアノテーションなしに、自己教師ありプレイから多様な操作スキルを学習できるようにする。
  • ロボット体験と言語を後から対応付けることで、言語アノテーションのコストを低減する。
  • 大規模なテキストコーパスからの転移を活用して、新しい指示へのゼロショット一般化を可能にする。
  • 3次元環境で順序付きの言語条件タスクを実行できる1つのエージェントを訓練する。

提案手法

  • 明示的なゴールの監視なしに、一般センサーを用いて非構造的なプレイ中にロボット体験を収集する。
  • 後から、短いロボット軌道と関連する人間の言語記述を対応付けて、言語条件付きデータセットを作成する。
  • マルチコンテキスト模倣を用いて、訓練中に画像ゴールと言語ゴールの両方を従う1つのポリシーを訓練する。
  • 大規模なラベルなしテキストコーパスからの転移学習を適用して、ロボットポリシーにおける言語理解を向上させる。
  • テスト時に、同じポリシーを自然言語指示のみに条件付け、複雑で順序付きのタスクを実行する。
  • 事前学習済みの言語表現を活用して、16言語で未観測の指示へのゼロショット一般化を可能にする。

実験結果

リサーチクエスチョン

  • RQ1ゴール画像を必要とせずに、自己教師ありロボットプレイに言語を有効に接地できるか?
  • RQ2マルチコンテキスト模倣を用いて、1つのポリシーが画像ゴールと言語ゴールの両方で一般化できるか?
  • RQ3後からアノテーションを用いることで、言語対応付けコストをどの程度低減できるか?
  • RQ4大規模なテキストコーパスからの転移が、新しい指示へのゼロショット一般化を改善できるか?
  • RQ5テスト時に、16言語で数千の新しい未観測の指示をモデルが処理できるか?

主な発見

  • 言語対応付けコストが、ロボット体験全体の1%未満にまで低下し、アノテーション負荷が顕著に軽減された。
  • モデルは、訓練中にそれらを確認していなくても、テスト時に数千の新しい指示に対してゼロショット一般化を達成した。
  • 大規模なラベルなしテキストコーパスからの転移により、下流のロボット操作性能が向上した。
  • 同じポリシーが、'引き出しを開けて…今、ブロックをつかんで…次に緑のボタンを押す'のような自然言語から直接順序付きの操作タスクを実行できた。
  • 16言語にわたるゼロショット設定でも、ロバストな言語一般化が実現された。
  • 自己教師ありおよび弱教師ありの言語対応付けのみを用いても、3次元環境で高いパフォーマンスを維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。