Skip to main content
QUICK REVIEW

[논문 리뷰] VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Shaoan Wang, Yuanfei Luo|arXiv (Cornell University)|2026. 01. 13.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

VLingNav은 구현형 탐색을 위한 비전-언어-행동 모델로, 적응형 체인-오브-생각 추론과 지속적인 시각 보조 언어 기억을 사용하여 최첨단 결과와 제로샷 현실 세계 이전을 달성합니다.

ABSTRACT

VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.

연구 동기 및 목표

  • 실행 가능한 구체적이고 적응적 추론과 언어 표현에 근거한 지속적 다중 모달 기억으로 구현형 탐색의 동기 부여.
  • 속도와 숙고 사이의 균형을 dynamically 트리거하는 AdaCoT를 개발.
  • 장기적 작업을 지원하는 지속적 다중 모달(시각-언어) 기억을 구축하는 VLingMem 도입.
  • 감독 학습을 위한 적응 CoT 주석이 포함된 대규모 데이터세트 Nav-AdaCoT-2.9M을 생성.
  • 模倣 학습을 넘어 견고성을 개선하기 위한 온라인 전문가 주도 강화 학습을 가능하게 함.

제안 방법

  • 작업의 복잡도에 따라 빠른 실행과 느린 계획 사이를 전환하는 Adaptive Chain-of-Thought (AdaCoT) 제안.
  • 장기적 내비게이션을 위한 교차 모달 의미 기억을 저장하고 회상하는 Visual-Assisted Linguistic Memory (VLingMem) 개발.
  • VLM의 출력을 연속 로봇 궤도로 변환하는 행동 모델을 갖춘 비디오 기반 VLM(LLaVA-Video-7B) 확장.
  • 추론 주석과 적응적 CoT 라벨이 포함된 가장 큰 구현형 탐색 데이터세트 Nav-AdaCoT-2.9M 구성.
  • 열려진 세계의 적응형 CoT 비디오 데이터로 사전 학습하고, 모방 학습으로 감독 미세조정 후 온라인 전문가-guided RL 적용.
  • 온라인 확률적 연속 출력 헤드를 사용하여 연속 로봇 행동을 출력하고 엔드-투-엔드 정책 학습 가능.
Figure 1 : Overview of VLingNav. VLingNav is a VLA model enhanced with adaptive CoT reasoning and visual-assisted linguistic memory. This architecture allows the model to leverage historical visual and linguistic memory, achieving SOTA results on several embodied navigation benchmarks. Furthermore,
Figure 1 : Overview of VLingNav. VLingNav is a VLA model enhanced with adaptive CoT reasoning and visual-assisted linguistic memory. This architecture allows the model to leverage historical visual and linguistic memory, achieving SOTA results on several embodied navigation benchmarks. Furthermore,

실험 결과

연구 질문

  • RQ1적응적 추론이 장기적 구현형 탐색 과제의 효율성 및 성공에 어떻게 기여하는가?
  • RQ2지속적 언어 기억이 기억 인출을 촉진하고 동적 환경에서의 반복적 탐사를 감소시키는가?
  • RQ3적응형 CoT와 시각 보조 기억의 결합이 VLN, ObjectNav, ImageNav 과제에서 최첨단 결과를 낳는가?
  • RQ4온라인 전문가 주도 강화 학습이 모방 학습을 넘어 탐색의 견고성을 추가로 향상시키는가?
  • RQ5언어 주도 인지 프레임워크를 통한 제로샷 실세계 로봇 이전이 가능한가?

주요 결과

  • VLingNav이 표준 구현형 탐색 벤치마크에서 최첨단 성능을 달성한다.
  • AdaCoT는 상황에 따라 빠른 실행과 신중한 계획 사이를 동적으로 전환하게 한다.
  • VLingMem은 지속적 교차 모달 기억을 제공하여 중복 탐사를 줄이고 이동 경향을 추론하는 데 도움을 준다.
  • Nav-AdaCoT-2.9M은 감독 학습을 위한 대규모 추론 주석 데이터세트를 제공한다.
  • 온라인 전문가-guided RL 사후 학습은 모방 학습을 넘어 탐색의 견고성을 향상시킨다.
  • 제로샷 실세계 로봇 이전이 교차 도메인 및 교차 작업 일반화를 보여준다.
Figure 2 : The overall framework of VLingNav. The framework takes video streams and multimodal instruction as input to produce robot action for navigation with tailored linguistic designs. AdaCoT can adaptively generate linguistic thinking according to its observation, while VLingMem summarizes CoT
Figure 2 : The overall framework of VLingNav. The framework takes video streams and multimodal instruction as input to produce robot action for navigation with tailored linguistic designs. AdaCoT can adaptively generate linguistic thinking according to its observation, while VLingMem summarizes CoT

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.