QUICK REVIEW

[論文レビュー] PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Jiang Gao, Xiangyu Dong|arXiv (Cornell University)|Mar 10, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

PM-Nav は機能的建物における事前地図ガイド付き実体ナビゲーションを導入し、セマンティック priors、階層型プロンプト、および多モデル協調を通じてシミュレーションと実世界のFBで SG-Nav および InstructNav より高いナビゲーション成功率を実現します。

ABSTRACT

Existing language-driven embodied navigation paradigms face challenges in functional buildings (FBs) with highly similar features, as they lack the ability to effectively utilize priori spatial knowledge. To tackle this issue, we propose a Priori-Map Guided Embodied Navigation (PM-Nav), wherein environmental maps are transformed into navigation-friendly semantic priori-maps, a hierarchical chain-of-thought prompt template with an annotation priori-map is designed to enable precise path planning, and a multi-model collaborative action output mechanism is built to accomplish positioning decisions and execution control for navigation planning. Comprehensive tests using a home-made FB dataset show that the PM-Nav obtains average improvements of 511\% and 1175\%, and 650\% and 400\% over the SG-Nav and the InstructNav in simulation and real-world, respectively. These tremendous boosts elucidate the great potential of using the PM-Nav as a backbone navigation framework for FBs.

研究の動機と目的

機能的建物で人間のナビゲーションを事前の空間知識を活用して模倣する。
環境マップをナビゲーションに適したセマンティック priors に変換して推論を支援する。
階層的チェーンオブソート prompting およびマルチモデル出力機構を用いた計画と実行を開発する。
機能建物ナビゲーションのデータセットを構築し、シミュレーションと実世界での性能を検証する。

提案手法

環境マップを部屋と経路セグメントを結ぶセグメント化されたセマンティック priorti-map に解析する。
annotation priorti-map を用いた階層的チェーンオブソート (H-CoT) プロンプトを用いて全局パス計画を生成する。
視覚言語モデルで粗い行動を生成し、GroundingDINO、SAM、PixelNav で細粒度の行動へと洗練する。
局所化（ランドマークベース）と行動実行のためのマルチモデル協調フレームワークを実装する。
六つの Gazebo ベースの FB シミュレーション環境を作成し、実世界の 3A 建物と iRobot Create3 で評価する。
ランドマーク密度を跨ぐ局所化のロバスト性を測る新しい SDF 指標とともに SR、SPL で評価する。

実験結果

リサーチクエスチョン

RQ1機能的建物における難易度が異なる状況で PM-Nav は実体ナビゲーションタスクでどのように性能を発揮するのか。
RQ2 semantic priors、H-CoT プロンプト、マルチモデル行動出力の各 PM-Nav モジュールがナビゲーション性能に与える影響は何か。
RQ3 PM-Nav は生成されたナビゲーション計画を信頼性高く実行し、ランドマークをさまざまなシナリオで局在できるか。
RQ4 実世界の FB 環境での PM-Nav の性能は最先端手法と比較してどうか。

主な発見

Input	Easy SR	Easy SPL	Medium SR	Medium SPL	Hard SR	Hard SPL
SG-Nav [30]	12	4.96	4	1.92	0	0.00
InstructNav [31]	18	5.81	8	2.80	0	0.00
PM-Nav (Ours)	88	77.40	68	58.60	46	36.40

PM-Nav は FB シミュレーションにおいて Easy, Medium, Hard のタスクで SG-Nav および InstructNav よりも著しい SR および SPL の向上を達成した（SR: 88/68/46 対 12/4/0 および 18/8/0; SPL: 77.40/58.60/36.40 対 4.96/1.92/0.00 および 5.81/2.80/0.00）。
三モジュールのアブレーションにより、階層的プロンプトと注釈付き priors が計画を劇的に改善（O-EM SR: 31.3/10.4/0.0; H-EM: 91.6/85.4/75.0; H-PM: 95.8/89.5/83.3）。
局所化の成功率（SDF）は冗長なランドマーク密度と最小限のランドマーク密度の両方で高い状態を維持（SR 最大 93.8%、91.7%、SDF 最大 90.4%、82.6% ）。
行動洗練のアブレーションは、粗い行動をベースモデルと PixelNav で洗練すると Easy/Medium タスクの SR と SPL が著しく向上（粗いのみの場合は Easy で 32/22.61 → 88/77.4、Medium は 10/7.71 → 68/58.6）。
PM-Nav は実世界 FB テストで SOTA を上回り、Easy タスクで SG-Nav に対して SR が 650%、InstructNav に対して 400% の改善を示す。難易度が高いタスクでも prior 手法が失敗する場面で依然として顕著な向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。