[論文レビュー] Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling
DECKARD は few-shot LLMs を用いてサブゴール計画の抽象世界モデル (AWM) を仮説し、それを相互作用でグラウンド化・修正することで、Minecraft のアイテムクラフトにおけるサンプル効率を桁違いに改善します。
Reinforcement learning (RL) agents typically learn tabula rasa, without prior knowledge of the world. However, if initialized with knowledge of high-level subgoals and transitions between subgoals, RL agents could utilize this Abstract World Model (AWM) for planning and exploration. We propose using few-shot large language models (LLMs) to hypothesize an AWM, that will be verified through world experience, to improve sample efficiency of RL agents. Our DECKARD agent applies LLM-guided exploration to item crafting in Minecraft in two phases: (1) the Dream phase where the agent uses an LLM to decompose a task into a sequence of subgoals, the hypothesized AWM; and (2) the Wake phase where the agent learns a modular policy for each subgoal and verifies or corrects the hypothesized AWM. Our method of hypothesizing an AWM with LLMs and then verifying the AWM based on agent experience not only increases sample efficiency over contemporary methods by an order of magnitude but is also robust to and corrects errors in the LLM, successfully blending noisy internet-scale information from LLMs with knowledge grounded in environment dynamics.
研究の動機と目的
- embodied 環境における RL サンプル効率を向上させるために高レベルなサブゴール知識を動機づけとして用いる。
- LLM から Abstract World Model (AWM) を仮説し、経験によってグラウンド化する DECKARD を提案する。
- Minecraft のアイテムクラフトにおける探索効率と LLM 誤差に対する頑健性を示す。
- サブゴールのモジュール型 RL 方策を学習し、ベースラインと比較する。
提案手法
- Minecraft アイテム依存関係の DAG ベースの抽象世界モデルを生成するために LLM(Codex)をプロンプトする。
- Dream-Wake 学習ループ: Dream フェーズは AW M から現在のゴールへ向かうパスをサンプルして探索を導く;Wake フェーズはモジュール型サブゴール方策を学習し、環境相互作用を通じて AWM を検証・修正する。
- Video-Pretrained Minecraft policy (VPT) を出発点として、トランスフォーマー・アダプター上でモジュール型サブゴール方策をファインチューニングする。
- LLM 指定の AWM を、検証済みノードを記録し経験でグラフを更新し、 frontier を予測ゴール経路に絞り込むことでグラウンド化する。
- Minecraft のクラフトタスクとオープンエンド探索で評価し、LLM ガイド付き DECKARD をアブレーションおよびベースラインと比較する。
- AWM をテキスト表現の状態表現(在庫)に対する DAG とし、エッジがサブゴール依存関係を表す。
実験結果
リサーチクエスチョン
- RQ1 LL M-生成の抽象世界モデルは、スパース報酬の体現化タスクにおける探索効率を改善できるか。
- RQ2 探索を導く際の LLM 出力の誤りに対して DECKARD はどれだけ頑健か。
- RQ3 環境相互作用を介して LLM 指定の AWM をグラウンド化することで、アブレーションや非 LLM ベースラインに対してサンプル効率を改善できるか。
- RQ4 モジュール型サブゴール方策は Minecraft で任意のアイテムを作成することをどの程度可能にするか。
主な発見
| 指標 | 全アイテム | 道具のみ |
|---|---|---|
| Collectable vs. Craftable | 57 | 100 |
| Crafting Table / Furnace | 84 | 96 |
| Recipe Correct Items | 66 | 81 |
| Recipe Exact Match | 55 | 69 |
- LLM ガイダンスは、ベースラインと比較してアイテム作成の探索時間を約1桁のオーダー短縮。
- LLM ガイダンス付きの DECKARD は、LLM なしの DECKARD より探索性能で約2倍、いくつかのアイテムタスクでは約12倍のサンプル効率を達成。
- DECKARD は LLM 誤差に対して頑健で、AWM に人工誤差を導入してもアブレーションを上回り続ける。
- フロンティアベースのサンプリング(検証済み + 予測経路)は、AWM の成長に伴い探索を焦点化・効率的に保つ。
- サブゴール方策は軽量(各サブゴールあたり約 9.5M パラメータ、アダプター経由)で、事前学習済み VPT ポリシー上に構築され、Minecraft におけるスケーラブルなモジュール型 RL を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。