[論文レビュー] Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents
大規模言語モデルは訓練なしで具現化されたタスクの実行可能性のある高レベルな行動計画を生成できる。しかしこれらの計画はしばしば実行可能ではない。論文はVirtualHomeで実行可能性を改善するために計画を翻訳・修正する手法を提案し、意味的正確さの一部を犠牲にすることもあるが実行可能性の顕著な向上を示す。
Can world knowledge learned by large language models (LLMs) be used to act in interactive environments? In this paper, we investigate the possibility of grounding high-level tasks, expressed in natural language (e.g. "make breakfast"), to a chosen set of actionable steps (e.g. "open fridge"). While prior work focused on learning from explicit step-by-step examples of how to act, we surprisingly find that if pre-trained LMs are large enough and prompted appropriately, they can effectively decompose high-level tasks into mid-level plans without any further training. However, the plans produced naively by LLMs often cannot map precisely to admissible actions. We propose a procedure that conditions on existing demonstrations and semantically translates the plans to admissible actions. Our evaluation in the recent VirtualHome environment shows that the resulting method substantially improves executability over the LLM baseline. The conducted human evaluation reveals a trade-off between executability and correctness but shows a promising sign towards extracting actionable knowledge from language models. Website at https://huangwl18.github.io/language-planner
研究の動機と目的
- 追加の訓練なしで事前学習済みのLLMが高レベルのタスクを中レベルの計画に分解できることを実証する。
- 具現化された家庭環境でLLM生成計画の実行可能性を評価する。
- 自由形式の計画を実行可能な環境アクションへ翻訳し、推論時に軌道を修正する方法を開発・評価する。
- 現実世界と結合した計画における実行可能性と意味的正確さのトレードオフを定量化する。
- LLMからの実行可能な知識を具現化されたエージェントにグラウンディングする指針を提供する。
提案手法
- 高レベルのタスク名とデモンストレーション例を用いて事前学習済みLLMにクエリを投げ、行動計画を生成する。
- 自由形式の計画フレーズを意味埋め込み(Translation LM)を用いて実行可能な環境アクションに翻訳する。
- 実行可能性を維持し、軌道修正で実行を正すために逐次自回帰的に手順を生成・翻訳する。
- デモンストレーションセットから最も類似したタスクを用いてLLMへ促す例題を動的に選択する。
- VirtualHomeでの人間評価によって実行可能性と意味的正確性を評価し、LCSベースの正確性と実行可能性指標を報告する。
実験結果
リサーチクエスチョン
- RQ1追加訓練なしで大規模言語モデルは高レベルのタスクに対して意味のある中レベルの行動計画を生成できるか?
- RQ2これらの計画は具現化された環境でどの程度実行可能で、モデルの再訓練をせずに実行可能性をどう改善できるか?
- RQ3計画を実行可能なアクションへ意味的翻訳はエージェントのグラウンディングを改善するか、正確さとのトレードオフは何か?
- RQ4動的デモンストレーション選択は計画の知識抽出にどう影響するか?
- RQ5自回帰的軌道修正が計画の妥当性とグラウンディングに与える影響は何か?
主な発見
| モデル | 実行可能性 | LCS | 正確性(平均、SEM付き) |
|---|---|---|---|
| Vanilla GPT-2 117M | 18.66% | 3.19% | 15.81% (4.90%) |
| Vanilla GPT-2 1.5B | 39.40% | 7.78% | 29.25% (5.28%) |
| Vanilla Codex 2.5B | 17.62% | 15.57% | 63.08% (7.12%) |
| Vanilla GPT-Neo 2.7B | 29.92% | 11.52% | 65.29% (9.08%) |
| Vanilla Codex 12B | 18.07% | 16.97% | 64.87% (5.41%) |
| Vanilla GPT-3 13B | 25.87% | 13.40% | 49.44% (8.14%) |
| Vanilla GPT-3 175B | 7.79% | 17.82% | 77.86% (6.42%) |
| Human | 100.00% | N/A | 70.05% (5.44%) |
| Fine-tuned GPT-3 13B | 66.07% | 34.08% | 64.92% (5.96%) |
| Translated Codex 12B | 78.57% | 24.72% | 54.88% (5.90%) |
| Translated GPT-3 175B | 73.05% | 24.09% | 66.13% (8.38%) |
- 訓練なしで高レベルのタスクに対して非常にもっともらしい行動計画を生成できるLLMsは、人間が書いた計画を知覚的正確さで上回ることもある。
- 単純に生成された計画は実行可能なアクションとの不一致や曖昧さのためしばしば実行不可能である。
- Translation LMを介して計画の手順を実行可能なアクションへ翻訳することで実行可能性が著しく向上する(18%から79%へ)。
- 翻訳は環境文法との整合を高め、人間の計画とのLCSベースの類似性を向上させるが、翻訳エラーや環境サポートの不完全さによって正確さの知覚が低下する可能性がある。
- 自回帰的軌道修正と動的な例題選択は実行可能性とグラウンディングをさらに高めるが、人間レベルの実行にはまだ差がある。
- このアプローチはモデルパラメータの更新なしで顕著な実行可能性の向上を達成し、既存のパイプラインへの統合を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。