QUICK REVIEW

[论文解读] MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation

Jiaqi Chen, Bingqian Lin|arXiv (Cornell University)|Jan 14, 2024

Multimodal Machine Learning Applications被引用 5

一句话总结

MapGPT 引入一种基于地图的提示框架，将在线拓扑地图转换为 GPT 提示，以实现全局探索和显式多步路径规划的零-shot 视觉与语言导航，在 R2R 和 REVERIE 上取得强结果。

ABSTRACT

Embodied agents equipped with GPT as their brains have exhibited extraordinary decision-making and generalization abilities across various tasks. However, existing zero-shot agents for vision-and-language navigation (VLN) only prompt GPT-4 to select potential locations within localized environments, without constructing an effective "global-view" for the agent to understand the overall environment. In this work, we present a novel map-guided GPT-based agent, dubbed MapGPT, which introduces an online linguistic-formed map to encourage global exploration. Specifically, we build an online map and incorporate it into the prompts that include node information and topological relationships, to help GPT understand the spatial environment. Benefiting from this design, we further propose an adaptive planning mechanism to assist the agent in performing multi-step path planning based on a map, systematically exploring multiple candidate nodes or sub-goals step by step. Extensive experiments demonstrate that our MapGPT is applicable to both GPT-4 and GPT-4V, achieving state-of-the-art zero-shot performance on R2R and REVERIE simultaneously (~10% and ~12% improvements in SR), and showcasing the newly emergent global thinking and path planning abilities of the GPT.

研究动机与目标

激励零-shot VLN 代理利用全局地图以避免仅局部的探索。
开发一个统一的单一专家提示系统，能够在不进行数据集特定微调的情况下适应不同的指令风格。
实现由在线拓扑地图引导的显式、迭代的多步路径规划。
展示基于地图引导的提示在多种大语言模型（GPT-3.5、GPT-4、GPT-4V）和数据集（R2R、REVERIE）上的有效性。

提出的方法

提出 MapGPT，一种基于地图的提示框架，将在线拓扑地图转换为用于基于 GPT 的导航的文本提示。
使用一个聚焦于可导航视点的统一单一专家提示系统以减少提示复杂性。
从观测到的节点和连通性构建一个动态更新的拓扑图 Gt = {Vt, Et} 来表示环境。
将地图转换为包含轨迹、地图连通性和地图注释的提示，以向大语言模型传达空间结构。
纳入一个多步规划模块，在每一步基于上一步规划 Pt-1 和当前观测迭代更新新的规划 Pt。
采用两部分输入：基本的 VLN 输入（指令、历史、观测、动作空间）和地图引导输入（地图 Mt 和规划 Pt-1）。
使用 BLIP-2 将视觉观测翻译为场景描述，使用 Faster R-CNN 进行对象检测以形成 Ot。
定义动作空间 At，包含 N+1 个选项（N 个可导航视点再加 Stop），使用与观测视点一致的方向表达。
在 GPT-3.5、GPT-4、GPT-4V 上进行评估，并在 R2R 和 REVERIE 数据集上与 NavGPT 和 DiscussNav 进行比较。

实验结果

研究问题

RQ1是否可以通过利用在线拓扑地图作为全局探索的提示，使基于 GPT 的零-shot VLN 代理实现具有竞争力的导航性能？
RQ2统一的单一专家提示方法是否能够在不同 VLN 数据集之间实现无缝适应不同指令风格？
RQ3通过带有地图上下文迭代更新的显式多步路径规划，是否能提高导航成功率并提升对局部陷阱的鲁棒性？
RQ4MapGPT 在 VLN 任务中跨不同 LLM 和指令风格的泛化程度如何？

主要发现

MapGPT 在 R2R（R2R）上实现了具有竞争力的零-shot VLN 性能，成功率和导航指标相对于先前的零-shot 代理有所提升。
在 REVERIE 上，MapGPT 展现出强劲的零-shot 性能，超过了某些基于训练的方法，在某些设置下接近启用 GPS 的基线。
一种基于地图的提示策略显著增强全局探索和回溯能力，降低导航错误并提升与成功相关的指标。
在消融实验中，添加地图信息带来显著的 OSR 提升，结合规划更新进一步提高总体成功率。
该多步规划组件在迭代更新时有助于提高规划准确性和最终成功率，即使只有一个 GPT 专家。
MapGPT 展示了在 GPT-3.5、GPT-4 和 GPT-4V 之间的适应性，体现了一种在指令风格和模型之间可迁移的统一提示方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。