QUICK REVIEW

[論文レビュー] Voyager: An Open-Ended Embodied Agent with Large Language Models

Guanzhi Wang, Yuqi Xie|arXiv (Cornell University)|May 25, 2023

Multimodal Machine Learning Applications被引用数 189

ひとこと要約

Voyagerは、GPT-4によって動作するオープンエンドの生涯学習型Minecraftエージェントを導入し、実行可能なスキルライブラリを構築し、自動カリキュラムを使用し、環境からのフィードバックと自己検証を通じてコードを反復的に改良し、ベースラインを上回る。

ABSTRACT

We introduce Voyager, the first LLM-powered embodied lifelong learning agent in Minecraft that continuously explores the world, acquires diverse skills, and makes novel discoveries without human intervention. Voyager consists of three key components: 1) an automatic curriculum that maximizes exploration, 2) an ever-growing skill library of executable code for storing and retrieving complex behaviors, and 3) a new iterative prompting mechanism that incorporates environment feedback, execution errors, and self-verification for program improvement. Voyager interacts with GPT-4 via blackbox queries, which bypasses the need for model parameter fine-tuning. The skills developed by Voyager are temporally extended, interpretable, and compositional, which compounds the agent's abilities rapidly and alleviates catastrophic forgetting. Empirically, Voyager shows strong in-context lifelong learning capability and exhibits exceptional proficiency in playing Minecraft. It obtains 3.3x more unique items, travels 2.3x longer distances, and unlocks key tech tree milestones up to 15.3x faster than prior SOTA. Voyager is able to utilize the learned skill library in a new Minecraft world to solve novel tasks from scratch, while other techniques struggle to generalize. We open-source our full codebase and prompts at https://voyager.minedojo.org/.

研究の動機と目的

人間の介入なしに世界を継続的に探索し、新しいスキルを学び続ける生涯的でオープンエンドな具象エージェントを実証する。
自動カリキュラムが持続的な探索とスキル獲得を推進できることを示す。
実行可能なプログラムのスケーラブルで解釈可能、構成可能なスキルライブラリを開発する。
環境フィードバックと自己検証を用いてプログラムを改善する反復的プロンプティング機構を導入する。
ベースラインと比較してVoyagerを評価し、新しい世界で未知のタスクへの一般化を評価する。

提案手法

3部構成のアーキテクチャ: 自動カリキュラム、実行可能なコードの拡張スキルライブラリ、具象制御のための反復的プロンプティング。
長期的なタスクに適した時系列的に拡張された、構成可能な挙動を表現する「コードをアクションとして扱う」パラダイム。
ファインチューニングなしの prompting およびコンテキスト学習によるGPT-4とのブラックボックス的相互作用。
スキルライブラリは記述埋め込みで索引付けされ、関連する再利用可能なプログラムの取得をサポートする。
反復的プロンプティングは環境フィードバック、実行エラー、自己検証を取り入れて、タスクの完了までコードを精練する。
アブレーション研究とゼロショットテストは、VoyagerをReAct、Reflexion、AutoGPT、およびスキルライブラリなしのバリアントと比較する。

実験結果

リサーチクエスチョン

RQ1自動カリキュラムは、人間の介入なしにMinecraft環境でオープンエンドな探究と継続的なスキル成長を促進できるだろうか？
RQ2実行可能なスキルの拡大ライブラリは、構成的で再利用可能な挙動を可能にし、新しいタスクへの一般化を改善するか？
RQ3環境フィードバックと自己検証を伴う反復的プロンプティングは、プログラム合成とタスク成功にどのような影響を与えるか？
RQ4コード生成品質とエージェント性能に対するGPT-4とGPT-3.5の影響はどのようか？
RQ5Voyagerの構成要素は、ベースラインのLLMベースエージェントと比較して生涯にわたるインコンテキスト学習にどのような影響を与えるか？

主な発見

Voyagerは、160回の prompting イテレーションに渡ってベースラインより3.3倍多い独自アイテムを達成する。
Voyagerは、従来のSOTA手法より最大15.3倍速く主要な技術ツリーの節目を解放する。
Voyagerは、マップ探索でベースラインより2.3倍長い距離を移動する。
学習済みスキルライブラリは、ベースラインが苦戦する新しいMinecraftの世界で新規タスクへの一般化を可能にする。
アブレーション実験は、自動カリキュラムと自己検証が持続的な進歩に重要であることを示し、スキルライブラリは複雑な挙動の構築をサポートする。GPT-4はGPT-3.5に比べてコーディング性能を大幅に向上させる。
ゼロショットテストは、新しい世界で未見のタスクをVoyagerが解決することを示す一方、ベースラインは50回のprompting iterations以内に失敗する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。