Skip to main content
QUICK REVIEW

[論文レビュー] Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning

Dhruv Shah, Michael Equi|arXiv (Cornell University)|Oct 16, 2023
Multimodal Machine Learning Applications被引用数 14
ひとこと要約

LFG は LLM 由来の意味ヒューリスティックを用いて frontier ベースの探索をナビゲーションに biased します。言語推論とプランニングを組み合わせて新しい環境でのゴール指向検索を加速します。Habitat ObjectNav の uninformed 探索やいくつかの LLM ベースのベースラインより優れており、現実世界のテストでも優れた結果を示します。

ABSTRACT

Navigation in unfamiliar environments presents a major challenge for robots: while mapping and planning techniques can be used to build up a representation of the world, quickly discovering a path to a desired goal in unfamiliar settings with such methods often requires lengthy mapping and exploration. Humans can rapidly navigate new environments, particularly indoor environments that are laid out logically, by leveraging semantics -- e.g., a kitchen often adjoins a living room, an exit sign indicates the way out, and so forth. Language models can provide robots with such knowledge, but directly using language models to instruct a robot how to reach some destination can also be impractical: while language models might produce a narrative about how to reach some goal, because they are not grounded in real-world observations, this narrative might be arbitrarily wrong. Therefore, in this paper we study how the ``semantic guesswork'' produced by language models can be utilized as a guiding heuristic for planning algorithms. Our method, Language Frontier Guide (LFG), uses the language model to bias exploration of novel real-world environments by incorporating the semantic knowledge stored in language models as a search heuristic for planning with either topological or metric maps. We evaluate LFG in challenging real-world environments and simulated benchmarks, outperforming uninformed exploration and other ways of using language models.

研究の動機と目的

  • 大規模言語モデルからの意味知識を活用して、未知の indoor 環境でのナビゲーションを導くことの動機づけ。
  • LLM由来のセマンティクスを frontier ベースの探索へ落とし込むヒューリスティックベースのプランナーを開発する。
  • LFG が uninformed な戦略や他の LLM ベースの手法より現実世界とシミュレータのベンチマークでゴール指向探索を改善することを示す。
  • ジオメトリックとトポロジックのマップ、および 2 つのパイプライン(手設計のコントローラを用いる幾何的、学習ポリシーを用いるトポロジック)における LFG の頑健性を示す。

提案手法

  • エピソード記憶 M を条件とする LLM を用いて、与えられたクエリ q に対してサブゴール提案 s_i のスコアを評価する。
  • 視覚言語モデルでサブゴール画像をグランドさせ、評価用のテキスト記述 l_i を得る。
  • 正および負のプロンプトを用いた構造化プロンプトと連鎖的思考(CoT)推論で LLM を問い、p(s_i|q,M) および p(¬s_i|q,M) を推定する。
  • LLM 由来のスコアをヒューリスティックとして frontier ベースの探索プランナーに組み込む: h(f_i,q)=w_p·LLM_pos(c_i) − w_n·LLM_neg(c_i) − dist(f_i, p)。
  • 幾何的(2D マップ)またはトポロジカルナビゲーション・パイプラインのいずれかと LFG を組み合わせ、手設計のコントローラによるメトリックプランニングと学習ポリシーによる学習型プランニングの両方を可能にする。
  • CoT および負のプロンプトを用いたポーリングがヒューリスティックの頑健性と精度を向上させることを示す。
Figure 1: In constrast to methods that use LLM plans directly, Language Frontier Guide (LFG) uses a language model to score subgoal candidates, and uses these scores to guide a heuristic-based planner.
Figure 1: In constrast to methods that use LLM plans directly, Language Frontier Guide (LFG) uses a language model to score subgoal candidates, and uses these scores to guide a heuristic-based planner.

実験結果

リサーチクエスチョン

  • RQ1LLM は、ゴールへと導くフロンティアをバイアスする有用な意味的事前情報を提供できるか。
  • RQ2LLM由来の意味ヒューリスティクスを用いると、見知らぬ環境でのゴール指向ナビゲーションは純粋な幾何的手法や未指向探索法より改善されるか。
  • RQ3正負プロンプト、チェーン・オブ・思考などの prompting 戦略は、サブゴールスコアリングとナビゲーション性能の質にどのような影響を与えるか。
  • RQ4LFG アプローチは幾何表現とトポロジ表現、および現実世界とシミュレーション設定の双方で頑健か。
  • RQ5LLM のスコアを視覚言語 grounding ステップに基づかせることが、ナビゲーション性能に与える影響はどれほどか。

主な発見

方法成功SPLデータ
DD-PPO27.914.22.5B
FBE61.134.00
SemExp63.10.2910M
OVRL-v264.728.112M
Greedy LLM54.426.90
L3MVN62.4-0
LFG (Ours)68.936.00
  • LFG は Habitat ObjectNav ベンチマークで uninformed frontier-based exploration およびいくつかの LLM ベースのベースラインより優れている。
  • チェーン・オブ・思考と正・負のプロンプトの組み合わせを用いたポーリングは、サブゴールスコアリングとナビゲーション成功率に substantial な改善をもたらす。
  • 現実世界のテストでは、トップロジカルマップを用いた LFG が、意味的指針なしの言語ベースのベースラインより 16% 高い性能を達成。
  • CoT プロンプティング (+6.6%) およびポーリング (+7.8%) が、LFG の性能向上の要となる。
  • 純粋に貪欲な LLM や logprob ベースのスコアリングと比較して、LFG は顕著に強いナビゲーション性能を達成。
  • シミュレートされた HM3D ObjectNav では、LFG(我々のもの)は 68.9% の成功率、36.0 SPL を達成し、いくつかのベースラインを凌駕し、トレーニングなしで最新技術に近づく。
Figure 2: LFG scores subgoals with an empirical estimate of the likelihoods by sampling an LLM $n_{s}$ times with both positive and negative prompts, and uses chain-of-thought to obtain reliable scores. These scores are used by a high-level planner as heuristics to guide search. For full prompts, se
Figure 2: LFG scores subgoals with an empirical estimate of the likelihoods by sampling an LLM $n_{s}$ times with both positive and negative prompts, and uses chain-of-thought to obtain reliable scores. These scores are used by a high-level planner as heuristics to guide search. For full prompts, se

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。