Skip to main content
QUICK REVIEW

[論文レビュー] VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

Pengying Wu, Yao Mu|arXiv (Cornell University)|Jan 5, 2024
Multimodal Machine Learning Applications被引用数 8
ひとこと要約

VoroNav は Reduced Voronoi Graph と LLM ベースの推論を用いて、ゼロショット物体ナビゲーションのための有益なウェイポイントを計画し、HM3D および HSSD データセットで最先端の結果を達成します。

ABSTRACT

In the realm of household robotics, the Zero-Shot Object Navigation (ZSON) task empowers agents to adeptly traverse unfamiliar environments and locate objects from novel categories without prior explicit training. This paper introduces VoroNav, a novel semantic exploration framework that proposes the Reduced Voronoi Graph to extract exploratory paths and planning nodes from a semantic map constructed in real time. By harnessing topological and semantic information, VoroNav designs text-based descriptions of paths and images that are readily interpretable by a large language model (LLM). In particular, our approach presents a synergy of path and farsight descriptions to represent the environmental context, enabling LLM to apply commonsense reasoning to ascertain waypoints for navigation. Extensive evaluation on HM3D and HSSD validates VoroNav surpasses existing benchmarks in both success rate and exploration efficiency (absolute improvement: +2.8% Success and +3.7% SPL on HM3D, +2.6% Success and +3.8% SPL on HSSD). Additionally introduced metrics that evaluate obstacle avoidance proficiency and perceptual efficiency further corroborate the enhancements achieved by our method in ZSON planning. Project page: https://voro-nav.github.io

研究の動機と目的

  • 未見環境における明示的な訓練なしのゼロショット物体ナビゲーション(ZSON)を動機づける。
  • 実時的意味マップから有益なナビゲーションウェイポイントを抽出するための Reduced Voronoi Graph (RVG) を提案する。
  • マップと画像観測をテキストプロンプトに融合し、LLM ベースの常識的推論を通じて中期目標を選択する。
  • 探索、効率性、意味的手掛かりを結合する階層的報酬フレームワークを開発し、意思決定を促す。
  • 追加の計画および知覚指標とともに HM3D および HSSD で最先端の性能を示す。

提案手法

  • RGB-D データとエージェント姿勢からセマンティックな 2D マップを構築する。
  • マップの一般化 Voronoi 図から Global RVG を生成し、ノードを agent、neighbor、 exploratory、ordinary の集合に分類する。
  • RVG のエッジに沿った経路記述と farsight 画像キャプションを作成し、LLM のリッチなプロンプトを形成する。
  • 統合された経路と farsight の記述を基に GPT-3.5 に推論させ、有望な neighbor ノードを中期目標として選択する。
  • 高速走査法を用いて低レベルのアクションを計画し、Voronoi ノードで再計画を行い、目標に到達するまで繰り返す。
  • 探索、効率、LLM由来の意味的誘導を組み合わせた階層的報酬設計を取り入れ、次のウェイポイントを選択する。

実験結果

リサーチクエスチョン

  • RQ1Reduced Voronoi Graph は ZSON のための有益なウェイポイント計画をどのように可能にするか?
  • RQ2パスベースの記述と farsight 画像記述を組み合わせることで LLM の推論をナビゲーション判断において改善できるか?
  • RQ3LLM によるガイド付きのトポロジー情報を用いた意思決定プロセスは HM3D および HSSD の既存の ZSON ベースラインを上回るか?
  • RQ4LLM からの意味的報酬をトポロジー ベースの報酬と統合することがナビゲーション性能に与える影響は何か?

主な発見

MethodPlannerTraining-freeLLMHM3D SuccessHM3D SPLHSSD SuccessHSSD SPL
Random Exploration ∗Random-26.59.230.212.7
Frontier (Yamauchi, 1997 ) ∗Topological-33.715.336.017.7
Voronoi ∗Topological-38.723.340.322.2
L3MVN (Yu et al., 2023b ) ∗SemanticGPT-235.216.538.419.4
Pixel-Nav (Cai et al., 2023 )×GPT-437.920.5--
ESC (Zhou et al., 2023 )GPT-3.539.222.3--
VoroNav (Ours)GPT-3.542.026.041.023.2
  • VoroNav は HM3D および HSSD でベースラインより高い Success および SPL を達成する(結果表に基づく)。
  • アブレーションは、経路記述と farsight 記述の双方が性能に寄与することを示し、完全な VoroNav は Voronoi およびアブレーションよりも優れている。
  • 計画指標は Voronoi ベースの手法(VoroNav を含む)が frontier 手法より SCA(障害物回避)と SEA(探索領域効率)で優れていることを示す。
  • LLM ガイド付き推論は、パス/ farsight プロンプトを組み合わせたことで、より情報量の多い中期目標と改善されたナビゲーション効率をもたらす。
  • 本手法は報告された評価内で HM3D および HSSD データセットにおける ZSON の最先端結果を確立する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。