Skip to main content
QUICK REVIEW

[論文レビュー] VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Shaoan Wang, Yuanfei Luo|arXiv (Cornell University)|Jan 13, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

VLingNav は embodiment ナビゲーションのための Vision-Language-Action モデルで、適応的チェーン・オブ・ソート推論と持続的な視覚支援言語メモリを用いて、最先端の結果とゼロショット現実世界転送を達成します。

ABSTRACT

VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.

研究の動機と目的

  • 明示的で適応的な推論と、言語表現に基づく持続的なクロスモーダルメモリを-groundedに用いた embodiment ナビゲーションの動機付け。
  • 動作の速度と熟慮のバランスを取りつつ推論を動的に trigger する AdaCoT の開発。
  • 長距離タスクを支える持続的なクロスモーダル(視覚-言語)メモリを構築する VLingMem の導入。
  • 監督付き学習の訓練用に適応的 CoT 注釈を含む最大規模の embodiment ナビゲーションデータセット Nav-AdaCoT-2.9M の作成。
  • 模倣学習を超える頑健性をオンラインの専門家主導強化学習で向上させる。

提案手法

  • タスクの複雑さに応じて高速実行と遅い計画を切り替える Adaptive Chain-of-Thought(AdaCoT)を提案。
  • 長距離ナビゲーションのための横断モーダル意味メモリを蓄積・呼び出しする Visual-Assisted Linguistic Memory(VLingMem)を開発。
  • VLM 出力を連続的なロボット軌道へ変換するアクションモデルを備えたビデオベースの VLM(LLaVA-Video-7B)を拡張。
  • 推論注釈と適応的 CoT ラベルを持つ最大規模の embodiment ナビゲーションデータセット Nav-AdaCoT-2.9M を構築。
  • オープンワールド適応的 CoT 動画データで事前学習を行い、模倣学習で監督微調整を実施、訓練後にオンラインの専門家主導 RL を適用。
  • オンラインで確率的な連続-action ヘッドを使用して連続的なロボット動作を出力し、エンドツーエンドの方策学習を実現。
Figure 1 : Overview of VLingNav. VLingNav is a VLA model enhanced with adaptive CoT reasoning and visual-assisted linguistic memory. This architecture allows the model to leverage historical visual and linguistic memory, achieving SOTA results on several embodied navigation benchmarks. Furthermore,
Figure 1 : Overview of VLingNav. VLingNav is a VLA model enhanced with adaptive CoT reasoning and visual-assisted linguistic memory. This architecture allows the model to leverage historical visual and linguistic memory, achieving SOTA results on several embodied navigation benchmarks. Furthermore,

実験結果

リサーチクエスチョン

  • RQ1適応的推論は長距離の embodiment ナビゲーションタスクにおける効率と成功率をどのように向上させるか。
  • RQ2持続的な言語メモリはメモリ呼出しを促進し、動的環境での反復的探索を削減できるか。
  • RQ3適応的 CoT と視覚支援メモリの統合は VLN、ObjectNav、ImageNav タスクで最先端の結果を達成するか。
  • RQ4オンラインの専門家主導の強化学習は模倣学習を超えるナビゲーションの頑健性をさらに向上させるか。
  • RQ5言語駆動の認知フレームワークで現実世界ロボットへのゼロショット転送は実現可能か。

主な発見

  • VLingNav は標準的な embodiment ナビゲーションベンチマークで最先端の性能を達成。
  • AdaCoT は状況に応じて高速実行と熟考的計画のダイナミックな切替を可能にする。
  • VLingMem は持続的なクロスモーダルメモリを提供し、冗長な探索を削減し動作の傾向推定を助ける。
  • Nav-AdaCoT-2.9M は監督付き訓練のための大規模な推論注釈データを提供。
  • オンラインの専門家主導 RL の訓練後は模倣学習を超えるナビゲーションの頑健性を向上。
  • 現実世界ロボットへのゼロショット転送は、クロスドメインおよびクロスタスク一般化を示す。
Figure 2 : The overall framework of VLingNav. The framework takes video streams and multimodal instruction as input to produce robot action for navigation with tailored linguistic designs. AdaCoT can adaptively generate linguistic thinking according to its observation, while VLingMem summarizes CoT
Figure 2 : The overall framework of VLingNav. The framework takes video streams and multimodal instruction as input to produce robot action for navigation with tailored linguistic designs. AdaCoT can adaptively generate linguistic thinking according to its observation, while VLingMem summarizes CoT

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。