QUICK REVIEW

[논문 리뷰] CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

Haozhou Li, Xiangyu Dong|arXiv (Cornell University)|2026. 03. 09.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

CMMR-VLN은 시각-언어 네비게이션에 검색 보강 추론과 반성을 통한 지속적 다중모달 메모리를 추가하여 제로샷 성능 및 실세계 성능에서 강력한 성과를 달성한다.

ABSTRACT

Although large language models (LLMs) are introduced into vision-and-language navigation (VLN) to improve instruction comprehension and generalization, existing LLM- based VLN lacks the ability to selectively recall and use relevant priori experiences to help navigation tasks, limiting their performance in long-horizon and unfamiliar scenarios. In this work, we propose CMMR-VLN (Continual Multimodal Memory Retrieval based VLN), a VLN framework that endows LLM agents with structured memory and reflection capabilities. Specifically, the CMMR-VLN constructs a multimodal experi- ence memory indexed by panoramic visual images and salient landmarks to retrieve relevant experiences during navigation, introduces a retrieved-augmented generation pipeline to mimick how experienced human navigators leverage priori knowledge, and incorporates a reflection-based memory update strategy that selectively stores complete successful paths and the key initial mistake in failure cases. Comprehensive tests illustrate average success rate improvements of 52.9%, 20.9% and 20.9%, and 200%, 50% and 50% over the NavGPT, the MapGPT, and the DiscussNav in simulation and real tests, respectively eluci- dating the great potential of the CMMR-VLN as a backbone VLN framework.

연구 동기 및 목표

이전 다중모달 경험의 선택적 회상을 가능하게 하여 VLN 개선을 유도한다.
검색을 위한 파노라마 뷰와 중요한 랜드마크를 저장하는 구조화된 다중모달 메모리(MEM)를 제안한다.
검색된 경험으로 결정을 근거화하기 위한 검색 증강 생성 파이프라인을 도입한다.
성공과 실패로부터 경험을 지속적으로 다듬기 위한 반영 기반 메모리 업데이트를 구현한다.

제안 방법

관점당 파노라마 이미지와 중요한 랜드마크 텍스트로 구성된 다중모달 경험 메모리(MEM)를 구축하고, CLIP로 인코딩하며 FAISS로 인덱싱한다.
지시사항과 후보 뷰 임베딩을 융합하여 관련 과거 경험을 검색하고 근거 있는 행동 계획을 생성하는 Retrieval-Augmented Generation Pipeline(RAGP)을 사용한다.
메모리 기반 추론을 LLM의 분석, 계획 및 행동 단계로 이끄는 명시적 네비게이션 규칙 R로 표현한다.
탐색과 함께 확장되는 동적 의미적 위상도(map)를 유지하여 전역 경로 계획을 지원한다.
각 에피소드 후 반영 모듈을 적용하여 MEM를 업데이트하고, 완전한 성공 경로와 첫 번째 실수 실패 사례를 저장하되 항목을 정리하거나 강화하는 규칙을 적용한다.

Figure 1: The overall CMMR-VLN framework consists of three modules from left to right. The Multimodal Experience Memory (MEM) performs memory building before navigation. The Retrieval-Augmented Generation Pipeline (RAGP) carries out corresponding prompting and action execution at each navigation ste

실험 결과

연구 질문

RQ1지속적 다중모달 메모리 검색이 VLN에서 지시의 근거화와 장기 계획을 향상시킬 수 있는가?
RQ2검색된 경험과 명시적 네비게이션 규칙으로 의사결정을 근거화하는 것이 비검색 기반 기준선보다 더 나은 네비게이션 지표를 제공하는가?
RQ3반영 기반 메모리 업데이트가 보지 못한 환경과 실제 세계 설정에서 지속적 개선을 가능하게 하는가?
RQ4의미적 위상도 통합이 VLN의 전역 탐색 및 효율성에 어떤 영향을 미치는가?
RQ5명시적 추론 프롬프트(네비게이션 규칙)가 LLM 기반 VLN 성능에 미치는 영향은 무엇인가?

주요 결과

방법	NE↓	OSR↑	SR↑	SPL↑
NavGPT	6.46	42	34	29
MapGPT	5.63	57	43	34
DiscussNav	5.32	61	43	40
CMMR-VLN(Ours)	5.10	63	52	51

CMMR-VLN은 NavGPT에 비해 시뮬레이션에서 SR이 52.9% 증가하고, MapGPT에 비해 시뮬레이션에서 SPL이 50% 증가하는 등 상당한 이점을 달성한다.
R2R 미지정 검증 설정에서 CMMR-VLN은 NE 5.10, OSR 63, SR 52, SPL 51를 달성하여 NavGPT, MapGPT, DiscussNav를 네 가지 지표 모두에서 능가한다.
실세계 TurtleBot 4 Lite 테스트에서 SR이 NavGPT 대비 200%, MapGPT 대비 50%, DiscussNav 대비 50% 향상됐다.
변별 실험은 명시적 네비게이션 규칙이나 반영을 제거하면 성능이 저하됨을 보여주며, 검색된 규칙 기반의 근거화와 지속적 메모리 업데이트의 중요성을 강조한다.
사례 연구는 검색된 경험이 후보 뷰 간의 모호성 해소를 어떻게 돕고, 이전 성공을 활용해 직접적으로 관찰되지 않는 목표에 도달하는지 보여준다.
본 연구는 파노라마 뷰와 랜드마크로 구성된 구조화된 MEM, 단계별 검색-근거 추론을 위한 RAGP, 지속 학습을 위한 반영 모듈을 사용한다.

Figure 2: Details of the Reflection Module in Fig 1.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.