Skip to main content
QUICK REVIEW

[論文レビュー] 3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting

Wancai Zheng, Hao Chen|arXiv (Cornell University)|Feb 12, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

3DGSNav は活性3D ガウシアン splatting を視覚-言語モデルの記憶として用い、軌跡誘導型の自由視点レンダリング、構造化プロンプト、頑健なターゲット局在の再検証を通じてゼロショット物体ナビゲーションを改善する。

ABSTRACT

Object navigation is a core capability of embodied intelligence, enabling an agent to locate target objects in unknown environments. Recent advances in vision-language models (VLMs) have facilitated zero-shot object navigation (ZSON). However, existing methods often rely on scene abstractions that convert environments into semantic maps or textual representations, causing high-level decision making to be constrained by the accuracy of low-level perception. In this work, we present 3DGSNav, a novel ZSON framework that embeds 3D Gaussian Splatting (3DGS) as persistent memory for VLMs to enhance spatial reasoning. Through active perception, 3DGSNav incrementally constructs a 3DGS representation of the environment, enabling trajectory-guided free-viewpoint rendering of frontier-aware first-person views. Moreover, we design structured visual prompts and integrate them with Chain-of-Thought (CoT) prompting to further improve VLM reasoning. During navigation, a real-time object detector filters potential targets, while VLM-driven active viewpoint switching performs target re-verification, ensuring efficient and reliable recognition. Extensive evaluations across multiple benchmarks and real-world experiments on a quadruped robot demonstrate that our method achieves robust and competitive performance against state-of-the-art approaches.The Project Page:https://aczheng-cai.github.io/3dgsnav.github.io/

研究の動機と目的

  • 豊富な3D空間メモリを活用してシーン抽象化に頼らず、ゼロショット物体ナビゲーションの改善を動機付ける。
  • 3D Gaussian splatting (3DGS) がVLMに持続的な環境メモリを提供できるメモリ拡張フレームワークを開発する。
  • 情報量の多い1人称視点を生成するための能動知覚と自由視点レンダリングを設計する。
  • 構造化された視覚プロンプトを設計し、CoT(Chain-of-Thought)プロンプトと統合してVLMの空間推論を高める。
  • 複数のHabitatベンチマークと実世界ロボット実験でアプローチを評価し、頑健性と実用性を示す。

提案手法

  • 環境を3DGSメモリで表現し、能動知覚を通じて観察をレンダリングする。
  • 軌跡誘導型の自由視点最適化を用いて前線点の情報量の多い1人称視点を合成する。
  • FPVとBEVをオンライン注釈で補強し、それをCoTプロンプティングに導く計画VLMへ入力する。
  • ターゲットフィルタリング用のリアルタイム物体検出器と検出を検証し行動を選択するVLMを導入する。
  • 選択された視点を3DGSメモリに投影して未知の視点をレンダリングし、ターゲット再検証と認識の向上を図る。
  • 3DGSレンダリングの認知損失 L_g を定式化し、能動知覚の不透明性閾値を適用して視点選択を促す(式3–7、付録に詳細)。
  • 仮想視点初期化と自由視点最適化(式8–15)を用いて遮蔽、視線合わせ、前景点への軌跡近接のバランスを取る。

実験結果

リサーチクエスチョン

  • RQ13D Gaussian splatting は長期的な視覚-言語モデルの持続的メモリとして、長距離ナビゲーションにおいて有効になり得るか。
  • RQ2自由視点合成を伴う能動知覚は、シーン抽象化法よりもVLMベースの推論と前線探索を改善するか。
  • RQ3構造化された視覚プロンプトとCoTプロンプティング はZSONタスクのVLM計画をどの程度向上させるか。
  • RQ4リアルタイム物体検出とVLM駆動の再検証は、探索コストを削減しつつ頑健なターゲット局在を達成できるか。
  • RQ53DGSNav は標準的なZSONベンチマークと実世界ロボット実験でどの程度の利得を示すか。

主な発見

MethodZero-shotSceneUnsupervisedHM3Dv1 SRHM3Dv1 SPLHM3Dv2 SRHM3Dv2 SPLMP3D SRMP3D SPL
Habitat-Web (Ramrakhya et al., 2022)41.516.0--31.68.5
SGM (Zhang et al., 2024b)60.230.8--37.714.7
PSL (Sun et al., 2024)42.419.2--18.96.4
ZSON (Majumdar et al., 2022)25.512.6--15.34.8
ESC (Zhou et al., 2023)39.222.3--28.714.2
OpenFMNav (Kuang et al., 2024)54.924.4--37.215.7
L3MVN (Yu et al., 2023)50.423.136.315.734.914.5
VLFM (Yokoyama et al., 2024)52.530.463.632.536.417.5
SG-NAV (Yin et al., 2024)54.024.949.625.540.216.0
BeliefMapsNav (Zhou et al., 2025)61.430.6--37.317.6
ApexNav (Zhang et al., 2025)59.633.076.238.039.217.8
3DGSNav(Our)80.051.7975.044.1943.6321.31
  • 3DGSNav は HM3Dv1、HM3Dv2、MP3D のベンチマークでゼロショット物体ナビゲーション性能を向上させ、平均 SR が 13.5%、SPL が 32.08% 向上。
  • HM3Dv1 および MP3D で、3DGSNav は RLベースのZSONベースラインおよびシーン抽象化法を大幅に上回り、SR が約203% 以上、SPL が 320% 以上の利得を示す。
  • アブレーション研究は、自由視点最適化と視覚注釈がSPLとSRを大きく改善する一方、再検証とCoT計画が高SRと効率的探索には不可欠であることを示す。
  • 実世界テストで四脚ロボットがオフィス/ホテル環境で69.44%のSRを達成し、実用的な頑健性を示す。
  • このアプローチはシーン抽象化を活用する複数のベースラインを一貫して上回り、ZSONにおける3DGSメモリとVLM駆動の推論の有効性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。