[논문 리뷰] CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval
CMMR-VLN은 시각-언어 네비게이션에 검색 보강 추론과 반성을 통한 지속적 다중모달 메모리를 추가하여 제로샷 성능 및 실세계 성능에서 강력한 성과를 달성한다.
Although large language models (LLMs) are introduced into vision-and-language navigation (VLN) to improve instruction comprehension and generalization, existing LLM- based VLN lacks the ability to selectively recall and use relevant priori experiences to help navigation tasks, limiting their performance in long-horizon and unfamiliar scenarios. In this work, we propose CMMR-VLN (Continual Multimodal Memory Retrieval based VLN), a VLN framework that endows LLM agents with structured memory and reflection capabilities. Specifically, the CMMR-VLN constructs a multimodal experi- ence memory indexed by panoramic visual images and salient landmarks to retrieve relevant experiences during navigation, introduces a retrieved-augmented generation pipeline to mimick how experienced human navigators leverage priori knowledge, and incorporates a reflection-based memory update strategy that selectively stores complete successful paths and the key initial mistake in failure cases. Comprehensive tests illustrate average success rate improvements of 52.9%, 20.9% and 20.9%, and 200%, 50% and 50% over the NavGPT, the MapGPT, and the DiscussNav in simulation and real tests, respectively eluci- dating the great potential of the CMMR-VLN as a backbone VLN framework.
연구 동기 및 목표
- 이전 다중모달 경험의 선택적 회상을 가능하게 하여 VLN 개선을 유도한다.
- 검색을 위한 파노라마 뷰와 중요한 랜드마크를 저장하는 구조화된 다중모달 메모리(MEM)를 제안한다.
- 검색된 경험으로 결정을 근거화하기 위한 검색 증강 생성 파이프라인을 도입한다.
- 성공과 실패로부터 경험을 지속적으로 다듬기 위한 반영 기반 메모리 업데이트를 구현한다.
제안 방법
- 관점당 파노라마 이미지와 중요한 랜드마크 텍스트로 구성된 다중모달 경험 메모리(MEM)를 구축하고, CLIP로 인코딩하며 FAISS로 인덱싱한다.
- 지시사항과 후보 뷰 임베딩을 융합하여 관련 과거 경험을 검색하고 근거 있는 행동 계획을 생성하는 Retrieval-Augmented Generation Pipeline(RAGP)을 사용한다.
- 메모리 기반 추론을 LLM의 분석, 계획 및 행동 단계로 이끄는 명시적 네비게이션 규칙 R로 표현한다.
- 탐색과 함께 확장되는 동적 의미적 위상도(map)를 유지하여 전역 경로 계획을 지원한다.
- 각 에피소드 후 반영 모듈을 적용하여 MEM를 업데이트하고, 완전한 성공 경로와 첫 번째 실수 실패 사례를 저장하되 항목을 정리하거나 강화하는 규칙을 적용한다.

실험 결과
연구 질문
- RQ1지속적 다중모달 메모리 검색이 VLN에서 지시의 근거화와 장기 계획을 향상시킬 수 있는가?
- RQ2검색된 경험과 명시적 네비게이션 규칙으로 의사결정을 근거화하는 것이 비검색 기반 기준선보다 더 나은 네비게이션 지표를 제공하는가?
- RQ3반영 기반 메모리 업데이트가 보지 못한 환경과 실제 세계 설정에서 지속적 개선을 가능하게 하는가?
- RQ4의미적 위상도 통합이 VLN의 전역 탐색 및 효율성에 어떤 영향을 미치는가?
- RQ5명시적 추론 프롬프트(네비게이션 규칙)가 LLM 기반 VLN 성능에 미치는 영향은 무엇인가?
주요 결과
| 방법 | NE↓ | OSR↑ | SR↑ | SPL↑ |
|---|---|---|---|---|
| NavGPT | 6.46 | 42 | 34 | 29 |
| MapGPT | 5.63 | 57 | 43 | 34 |
| DiscussNav | 5.32 | 61 | 43 | 40 |
| CMMR-VLN(Ours) | 5.10 | 63 | 52 | 51 |
- CMMR-VLN은 NavGPT에 비해 시뮬레이션에서 SR이 52.9% 증가하고, MapGPT에 비해 시뮬레이션에서 SPL이 50% 증가하는 등 상당한 이점을 달성한다.
- R2R 미지정 검증 설정에서 CMMR-VLN은 NE 5.10, OSR 63, SR 52, SPL 51를 달성하여 NavGPT, MapGPT, DiscussNav를 네 가지 지표 모두에서 능가한다.
- 실세계 TurtleBot 4 Lite 테스트에서 SR이 NavGPT 대비 200%, MapGPT 대비 50%, DiscussNav 대비 50% 향상됐다.
- 변별 실험은 명시적 네비게이션 규칙이나 반영을 제거하면 성능이 저하됨을 보여주며, 검색된 규칙 기반의 근거화와 지속적 메모리 업데이트의 중요성을 강조한다.
- 사례 연구는 검색된 경험이 후보 뷰 간의 모호성 해소를 어떻게 돕고, 이전 성공을 활용해 직접적으로 관찰되지 않는 목표에 도달하는지 보여준다.
- 본 연구는 파노라마 뷰와 랜드마크로 구성된 구조화된 MEM, 단계별 검색-근거 추론을 위한 RAGP, 지속 학습을 위한 반영 모듈을 사용한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.