[論文レビュー] MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation
MapGPT は、オンラインのトポロジカルマップをGPTプロンプトに変換する地図案内型 prompting フレームワークを紹介し、グローバル探索とゼロショットのビジョン&言語ナビゲーションのための明示的な多段階経路計画を可能にし、R2RとREVERIEで強力な結果を達成する。
Embodied agents equipped with GPT as their brains have exhibited extraordinary decision-making and generalization abilities across various tasks. However, existing zero-shot agents for vision-and-language navigation (VLN) only prompt GPT-4 to select potential locations within localized environments, without constructing an effective "global-view" for the agent to understand the overall environment. In this work, we present a novel map-guided GPT-based agent, dubbed MapGPT, which introduces an online linguistic-formed map to encourage global exploration. Specifically, we build an online map and incorporate it into the prompts that include node information and topological relationships, to help GPT understand the spatial environment. Benefiting from this design, we further propose an adaptive planning mechanism to assist the agent in performing multi-step path planning based on a map, systematically exploring multiple candidate nodes or sub-goals step by step. Extensive experiments demonstrate that our MapGPT is applicable to both GPT-4 and GPT-4V, achieving state-of-the-art zero-shot performance on R2R and REVERIE simultaneously (~10% and ~12% improvements in SR), and showcasing the newly emergent global thinking and path planning abilities of the GPT.
研究の動機と目的
- ゼロショットVLNエージェントがグローバルマップを活用して局所的な探索に依存しないよう動機づける。
- データセット特異的なファインチューニングなしに、異なる指示スタイルに適応できる統一された単一エキスパートプロンプトシステムを開発する。
- オンラインのトポロジカルマップに導かれた明示的で反復的な多段階の経路計画を有効にする。
- MapGPT を複数の LLM (GPT-3.5, GPT-4, GPT-4V) およびデータセット (R2R, REVERIE) に跨って有効性を示す。
提案手法
- オンラインのトポロジカルマップをテキストプロンプトに変換してGPTベースのナビゲーションを実現する、地図案内型 prompting フレームワーク MapGPT を提案する。
- プロンプトの複雑さを削減するため、 navigable viewpoints に焦点を当てた統一された単一エキスパートプロンプトシステムを使用する。
- 観察されたノードと接続性から環境を表現する動的に更新されるトポロジカルグラフ Gt = {Vt, Et} を構築する。
- マップを Trajectory, Map Connectivity, Map Annotations を用いて LLM に空間的構造を伝えるプロンプトへ変換する。
- 各ステップで Previous Planning Pt-1 および現在の観察に基づいて New Planning Pt を反復的に更新する多段階計画モジュールを組み込む。
- 基本的な VLN 入力(指示、履歴、観察、行動空間)と map-guided 入力(map Mt および planning Pt-1)という二部入力を採用する。
- BLIP-2 を用いてシーンキャプションを、 Faster R-CNN を用いて物体検出を行い Ot を形成することで、視覚的観察をテキスト記述に翻訳する。
- 観察された viewpoint に沿った方向付けを用いて N+1 オプション(N 個の navigable viewpoints + Stop)からなる行動空間 At を定義する。
- GPT-3.5、GPT-4、GPT-4V を横断的に評価し、R2R および REVERIE データセットで NavGPT および DiscussNav と比較する。
実験結果
リサーチクエスチョン
- RQ1オンラインのトポロジカルマップをプロンプトとして活用することで、ゼロショット VLN エージェントはグローバル探索で競争力のあるナビゲーション性能を達成できるか。
- RQ2統一された単一エキスパートの prompting アプローチは、VLN データセット間で異なる指示スタイルへの滑らかな適応を可能にするか。
- RQ3map context で反復的に更新される明示的な多段階経路計画は、ナビゲーションの成功率と局所的な罠に対する頑健性を改善するか。
- RQ4MapGPT は異なる LLMs と指示スタイルに跨って一般化できる程度はどの程度か。
主な発見
- MapGPT は R2R (R2R) において、 prior zero-shot agent との比較で成功率およびナビゲーション指標を改善した競争力のあるゼロショットVLNパフォーマンスを達成。
- REVERIE では MapGPT は強力なゼロショット性能を示し、いくつかのトレーニングベースの手法を上回り、特定の設定で GPS 付きベースラインに近づいた。
- 地図案 Guided prompting 戦略は、グローバル探索とバックトラッキング能力を大幅に強化し、ナビゲーションエラーを減少させ、成功関連指標を改善した。
- アブレーション実験では、地図情報を追加すると OSR の改善が顕著になり、計画更新とともに全体の成功率をさらに高めた。
- 多段階計画要素は、反復的に更新されると、単一の GPT エキスパートでも計画精度と最終的な成功率の向上に寄与した。
- MapGPT はGPT-3.5、GPT-4、GPT-4V にまたがる適応性を示し、指示スタイルやモデルを横断して転移する統一的 prompting アプローチを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。