QUICK REVIEW

[論文レビュー] Large Language Models as Commonsense Knowledge for Large-Scale Task Planning

Zirui Zhao, Wee Sun Lee|arXiv (Cornell University)|May 23, 2023

Natural Language Processing Techniques被引用数 41

ひとこと要約

本論文は LLM-MCTS を提案する。これは LLM が生成する常識的世界モデルと LLM に基づくヒューリスティック方針を組み合わせ、モンテカルロ木探索を用いた大規模タスク計画を実現し、VirtualHome タスクでベースラインを上回る。

ABSTRACT

Large-scale task planning is a major challenge. Recent work exploits large language models (LLMs) directly as a policy and shows surprisingly interesting results. This paper shows that LLMs provide a commonsense model of the world in addition to a policy that acts on it. The world model and the policy can be combined in a search algorithm, such as Monte Carlo Tree Search (MCTS), to scale up task planning. In our new LLM-MCTS algorithm, the LLM-induced world model provides a commonsense prior belief for MCTS to achieve effective reasoning; the LLM-induced policy acts as a heuristic to guide the search, vastly improving search efficiency. Experiments show that LLM-MCTS outperforms both MCTS alone and policies induced by LLMs (GPT2 and GPT3.5) by a wide margin, for complex, novel tasks. Further experiments and analyses on multiple tasks -- multiplication, multi-hop travel planning, object rearrangement -- suggest minimum description length (MDL) as a general guiding principle: if the description length of the world model is substantially smaller than that of the policy, using LLM as a world model for model-based planning is likely better than using LLM solely as a policy.

研究の動機と目的

部分的に観測可能な大規模タスク計画の課題に動機づける。
LLMベースの世界モデルと MCTS を組み合わせた枠組みを提案する（LLM-MCTS）。
VirtualHomeにおける単純なタスクと新規タスクを通じて、LLM-MCTSをベースラインと比較評価する。
MDL原理を用いて、LLMを世界モデルとして使うべき時と方針として使うべき時を分析する。

提案手法

LLM はオブジェクトの位置に関する常識的事前情報を作成し、それを MCTS が使用する世界モデルとする。
LLM は自然言語の目標を、世界モデルと互換性のある形式的な目標へ翻訳する。
計画中の行動選択を誘導するために、LLM出力をサンプリングして経験的な方針分布を構築する。
MCTS は LLM 生成の世界モデルとヒューリスティック方針を統合して、有望な行動分岐を探索する。
一連のアブレーション実験で、ヒューリスティック方針、状態事前情報、完全観測性が性能に与える影響を検証する。

実験結果

リサーチクエスチョン

RQ1LLMベースの世界モデルは、大規模で部分的に観測可能なドメインにおいて計画効率を改善できるか？
RQ2MCTS の中で LLM をヒューリスティック方針として用いると、LLM を方針としてのみ、またはモデルとしてのみ使う場合よりも性能が良くなるか？
RQ3最小記述長(MDL)原理は、LLMs を世界モデルとして使用するか方針として使用するかの選択をどう導くか？
RQ4家庭環境における単純なタスクと新規・複合タスクのシナリオで LLM-MCTS の性能はどうか？
RQ5LLM-MCTS の主な失敗要因は何で、それらをどう緩和できるか？

主な発見

L-Model のみは、モデルの不正確さと大規模な探索空間のために性能が低い。
L-Policy のみは、既知のタスクでは合理的に機能するが、新規で複雑なタスクでは低下する。
LLM-MCTS（世界モデルとヒューリスティック方針を組み合わせたもの）は、L-Model および L-Policy の双方を上回り、特に新規で複雑なタスクで優れる。
アブレーション研究は、ヒューリスティック方針が探索を大幅に支援する一方、誤った世界モデルは性能を損なうことを示す。
MDL の指針は、特定の計画レジームでは、より大きく明示的なポリシーテーブルよりも、よりシンプル（短い記述）の世界モデルを優先すべきであることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。