Skip to main content
QUICK REVIEW

[論文レビュー] Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance

Jesse Zhang, Jiahui Zhang|arXiv (Cornell University)|Oct 16, 2023
Topic Modeling被引用数 7
ひとこと要約

BOSS はオフライン学習による primitive skills とオンライン LLM 指導付きブートストラップを組み合わせて長期的なスキルライブラリを拡張し、未見環境でのゼロショットタスク実行を従来の無監督学習やLLM-planning 手法よりも向上させる。

ABSTRACT

We propose BOSS, an approach that automatically learns to solve new long-horizon, complex, and meaningful tasks by growing a learned skill library with minimal supervision. Prior work in reinforcement learning require expert supervision, in the form of demonstrations or rich reward functions, to learn long-horizon tasks. Instead, our approach BOSS (BOotStrapping your own Skills) learns to accomplish new tasks by performing "skill bootstrapping," where an agent with a set of primitive skills interacts with the environment to practice new skills without receiving reward feedback for tasks outside of the initial skill set. This bootstrapping phase is guided by large language models (LLMs) that inform the agent of meaningful skills to chain together. Through this process, BOSS builds a wide range of complex and useful behaviors from a basic set of primitive skills. We demonstrate through experiments in realistic household environments that agents trained with our LLM-guided bootstrapping procedure outperform those trained with naive bootstrapping as well as prior unsupervised skill acquisition methods on zero-shot execution of unseen, long-horizon tasks in new environments. Website at clvrai.com/boss.

研究の動機と目的

  • 長期的な操作学習を最小限の監督で促進する動機づけ、人間のスキルブートストラップに触発。
  • オフラインの言語条件付き primitive skills の事前訓練とオンラインの LLM 指導付きスキルブートストラッピングという二相フレームワークの導入。
  • LLM 指導付きブートストラッピングが複雑なタスクに対して頑健で未見環境一般化をもたらすことを示す。
  • シミュレーションおよび実ロボットのタスクにおいて、無監督ベースラインおよび LLM-planning ベースラインより優れた性能を示す。

提案手法

  • 言語注釈付き軌跡データセットを用いたオフライン RL で言語条件付き primitive skill ポリシーを事前訓練する。
  • ブートストラッピングフェーズでは、エージェントが環境と相互作用し、スキルを連鎖させて長期的な挙動を構築する。
  • LLM-guided next-skill 提案:現在実行済みスキルチェーンと利用可能なスキルを用いて LLM にプロンプトを行い、LLM の出力をライブラリ内の最も近い既存スキルへマッピングする。
  • ブートストラッピングエピソードから経験を収集し、オフライン RL 手法(Implicit Q-Learning)でポリシーを更新する。
  • 収集したエピソードに複合言語指示でリラベリングし、新しいスキルチェーンをレパートリに追加して継続的なブートストラッピングを行う。
  • 公平な評価のため、同じベースの primitive skills を用いて、無監督 RL ベースラインおよび SayCan 類似の LLM-planning 手法と比較する。
Figure 1: BOSS learns to execute a large set of useful, long-horizon skills with minimal supervision by performing LLM-guided skill bootstrapping . (a): The agent starts with an initial skill library. During bootstrapping, it practices chaining skills into new long-horizon behaviors using guidance f
Figure 1: BOSS learns to execute a large set of useful, long-horizon skills with minimal supervision by performing LLM-guided skill bootstrapping . (a): The agent starts with an initial skill library. During bootstrapping, it practices chaining skills into new long-horizon behaviors using guidance f

実験結果

リサーチクエスチョン

  • RQ1BOSS は最小限の監督で base primitive skill ライブラリから長期的なスキルの豊かなレパートリーを構築できるか?
  • RQ2LLM 指導付きブートストラッピングはランダム探索や単なるトップダウン計画より意味のある有用なスキルチェーンを生み出すか?
  • RQ3学習した長期的ポリシーは未見環境、実ロボット実行を含む所望の一般化がどれくらい達成されるか?
  • RQ4BOSS のバリアント(異なる LLM、ガイダンス有無)は、複雑な家庭内タスクにおけるベースラインと比較してどうか?

主な発見

MethodLength 2Length 3Length 4AverageReturnSuccess
No Bootstrap0.03 +- 0.020.05 +- 0.070.08 +- 0.090.03 +- 0.010.00 +- 0.000.00 +- 0.00
CIC0.02 +- 0.020.25 +- 0.080.18 +- 0.070.11 +- 0.010.00 +- 0.000.00 +- 0.00
SayCan0.06 +- 0.020.14 +- 0.000.10 +- 0.120.06 +- 0.000.00 +- 0.000.00 +- 0.00
SayCan + P0.08 +- 0.040.28 +- 0.000.20 +- 0.150.12 +- 0.010.00 +- 0.000.00 +- 0.00
SayCan + PF0.64 +- 0.060.49 +- 0.200.59 +- 0.020.57 +- 0.050.00 +- 0.000.00 +- 0.00
BOSS (ours)0.47 +- 0.120.59 +- 0.130.81 +- 0.130.57 +- 0.060.57 +- 0.140.57 +- 0.14
  • BOSS は非 oracle ベースライン(CIC、SayCan 変種)を平均で上回り、ALFRED でより長いタスクで非ゼロの成功を達成する。
  • LLM 指導付きブートストラッピングはランダム連結や弱い LLM よりも長く意味のあるスキルチェーンを作り、成功率を高める。
  • より強力な LLM(13B)は、弱い OPT-1 よりもブートストラッピングの指導においてより良く、長いタスクほどギャップが大きい。
  • 実ロボット実験では、SayCan ベースの方法が苦戦する長いタスクで非ゼロの成功を達成する。
  • アブレーションにより、LLM 指導なし、またはより弱いモデルでは、特に長期的なタスクで性能が低下することが示される。
(a) ALFRED benchmark.
(a) ALFRED benchmark.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。