Skip to main content
QUICK REVIEW

[論文レビュー] Large Language Models as Generalizable Policies for Embodied Tasks

Andrew Szot, Max Schwarzer|arXiv (Cornell University)|Oct 26, 2023
Multimodal Machine Learning Applications被引用数 7
ひとこと要約

LLaRP は入力/出力アダプターとオンライン RL を用いて frozen な事前訓練済み LLM を制御ポリシーとして適用し、 embodiment されたエージェントを制御。未 seen の 1,000 タスクで 42% の成功率を達成し、パラフレーズ的および新規行動へ一般化する。

ABSTRACT

We show that large language models (LLMs) can be adapted to be generalizable policies for embodied visual tasks. Our approach, called Large LAnguage model Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take as input text instructions and visual egocentric observations and output actions directly in the environment. Using reinforcement learning, we train LLaRP to see and act solely through environmental interactions. We show that LLaRP is robust to complex paraphrasings of task instructions and can generalize to new tasks that require novel optimal behavior. In particular, on 1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other common learned baselines or zero-shot applications of LLMs. Finally, to aid the community in studying language conditioned, massively multi-task, embodied AI problems we release a novel benchmark, Language Rearrangement, consisting of 150,000 training and 1,000 testing tasks for language-conditioned rearrangement. Video examples of LLaRP in unseen Language Rearrangement instructions are at https://llm-rl.github.io.

研究の動機と目的

  • 凍結された事前訓練済み LLM が embodiment・多モーダルタスクの一般化可能なポリシーとなり得るかを調査する。
  • 訓練に対する paraphrastic 指示の変化および訓練外の新規行動への一般化を評価する。
  • 言語条件付き embodiment AI の generalization を研究するためのスケーラブルなベンチマーク(Language Rearrangement)を開発する。
  • ゼロショット LLM の使用や非 LLM ベースラインと比較した学習効率と潜在的な利点を示す。

提案手法

  • 事前訓練済み LLM の入力/出力層を取り除き、ポリシー学習のバックボーンを作成する。
  • アダプターを導入する:視覚から埋め込みへのアダプター E_phi^V と、LLM の出力を環境アクションへ写像するアクション出力モジュール D_omega。
  • 自然言語の目標と自己中心視覚観察でポリシーを条件付けし、それを LLM バックボーンへエンコードして入力する。
  • Llm バックボーンと視覚エンコーダを凍結したまま、PPO(DD-PPO)でオンライン訓練を行い、目標条件付き報酬を最適化する。
  • Language Rearrangement タスクでは高レベルのポリシーが低レベルのスキルを 70 個の利用可能なスキルから選択する。

実験結果

リサーチクエスチョン

  • RQ1凍結された LLM を軽量なアダプターを通じて視覚-言語ポリシーとして再利用できるか。
  • RQ2LLaRP は paraphrastic ロバスト性と、 unseen 指示やタスクへの行動一般化を達成するか。
  • RQ3言語条件付きポリシーを RL で訓練した場合、新しい物体タイプ・シーン・複雑な再配置指示へ一般化するか。
  • RQ4LLM ベースのポリシーでの RL の効率性と学習曲線は、模倣学習やゼロショット LLM の使用と比較してどうか。
  • RQ5LLM のサイズを拡大することは embodiment タスクの性能と一般化にどのような影響を与えるか。

主な発見

  • LLaRP は 1,000 件の unseen タスクで 42% の成功率を達成し、LSTM ベースのポリシー(25%)やゼロショット LLM(22%)を上回る。
  • LLaRP は paraphrastic ロバスト性と diverse instruction variations および novel task behaviors への一般化を示す。
  • LLaRP は baselines より学習が速く、サンプル効率が高く、模倣学習よりも効率性を上回る。
  • より大きな LLM(例:LLaMA-13B)は小型モデル(例:LLaMA-7B)より測定可能な利得をもたらす。
  • LLaRP は Atari ドメインにも恩恵を拡張し、LLM から得られる世界知識がある場合、トランスフォーマーベースのベースラインより非自明な利得を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。