[论文解读] VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model
VoroNav 使用 Reduced Voronoi Graph 和基于 LLM 的推理,为零-shot 对象导航规划信息丰富的航点,在 HM3D 与 HSSD 数据集上取得了最先进的结果。
In the realm of household robotics, the Zero-Shot Object Navigation (ZSON) task empowers agents to adeptly traverse unfamiliar environments and locate objects from novel categories without prior explicit training. This paper introduces VoroNav, a novel semantic exploration framework that proposes the Reduced Voronoi Graph to extract exploratory paths and planning nodes from a semantic map constructed in real time. By harnessing topological and semantic information, VoroNav designs text-based descriptions of paths and images that are readily interpretable by a large language model (LLM). In particular, our approach presents a synergy of path and farsight descriptions to represent the environmental context, enabling LLM to apply commonsense reasoning to ascertain waypoints for navigation. Extensive evaluation on HM3D and HSSD validates VoroNav surpasses existing benchmarks in both success rate and exploration efficiency (absolute improvement: +2.8% Success and +3.7% SPL on HM3D, +2.6% Success and +3.8% SPL on HSSD). Additionally introduced metrics that evaluate obstacle avoidance proficiency and perceptual efficiency further corroborate the enhancements achieved by our method in ZSON planning. Project page: https://voro-nav.github.io
研究动机与目标
- 在未见环境中不需显式训练的前提下,倡导零-shot 对象导航 (ZSON)。
- 提出 Reduced Voronoi Graph (RVG),从实时语义地图中提取信息丰富的导航航点。
- 将地图与图像观测融合成文本提示,进行基于 LLM 的常识推理以选择中期目标。
- 开发一个分层奖励框架,结合探索性、效率与语义线索来引导决策。
- 在 HM3D 和 HSSD 上展示结合额外规划与感知度量的最先进性能。
提出的方法
- 从 RGB-D 数据和代理位置构建语义二维地图。
- 从地图的广义 Voronoi 图生成 Global RVG,并将节点分类为 agent、neighbor、exploratory 和 ordinary 集合。
- 在 RVG 边沿创建路径描述和 farsight 图像描述以形成丰富的 LLM 提示。
- 使用 GPT-3.5 对组合的路径描述与 farsight 描述进行推理,以选择有前景的 neighbor 节点作为中期目标。
- 使用快速行进法规划低层动作,并在 Voronoi 节点重新规划,重复直到到达目标。
- 结合探索、效率与 LLM 派生的语义引导的分层奖励设计,选择下一个航点。
实验结果
研究问题
- RQ1Reduced Voronoi Graph 如何使 ZSON 的信息丰富航点规划成为可能?
- RQ2将基于路径的描述与 farsight 图像描述结合起来,是否能提升 LLM 对导航决策的推理?
- RQ3在 HM3D 与 HSSD 上,由 LLM 指导、拓扑信息驱动的决策过程是否优于现有的 ZSON 基线?
- RQ4将 LLM 的语义奖励与基于拓扑的奖励结合对导航性能的影响是什么?
主要发现
- VoroNav 在 HM3D 与 HSSD 上实现更高的 Success 和 SPL(基于结果表)。
- 消融实验表明路径描述和 farsight 描述都对性能有贡献,完整的 VoroNav 超越 Voronoi 与各消融版本。
- 规划指标表明基于 Voronoi 的方法(包括 VoroNav)在 SCA(障碍物回避)和 SEA(探索区域效率)方面优于 frontier 方法。
- 结合路径/ farsight 提示的 LLM 指导推理可获得更有信息量的中期目标和改进的导航效率。
- 该方法在所报告的评估中为 ZSON 在 HM3D 和 HSSD 数据集确立了最先进的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。