[논문 리뷰] LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action
LM-Nav는 프리트레인된 언어 모델, 비전-언어 모델, 그리고 시각적 내비게이션 모델을 결합하여 로봇 특화 미세조정이나 주석된 내비게이션 데이터 없이 자유 형식의 자연어 내비게이션 지시를 실행합니다.
Goal-conditioned policies for robotic navigation can be trained on large, unannotated datasets, providing for good generalization to real-world settings. However, particularly in vision-based settings where specifying goals requires an image, this makes for an unnatural interface. Language provides a more convenient modality for communication with robots, but contemporary methods typically require expensive supervision, in the form of trajectories annotated with language descriptions. We present a system, LM-Nav, for robotic navigation that enjoys the benefits of training on unannotated large datasets of trajectories, while still providing a high-level interface to the user. Instead of utilizing a labeled instruction following dataset, we show that such a system can be constructed entirely out of pre-trained models for navigation (ViNG), image-language association (CLIP), and language modeling (GPT-3), without requiring any fine-tuning or language-annotated robot data. We instantiate LM-Nav on a real-world mobile robot and demonstrate long-horizon navigation through complex, outdoor environments from natural language instructions. For videos of our experiments, code release, and an interactive Colab notebook that runs in your browser, please check out our project page https://sites.google.com/view/lmnav
연구 동기 및 목표
- 대규모의 주석되지 않은 궤적 데이터를 활용하여 목표 조건 로봇 내비게이션을 가능하게 한다.
- 언어 주석이 달린 로봇 데이터 없이도 명령 이행을 위한 자연어 인터페이스를 제공한다.
- 사전 학습된 모델들을 구성하여 장기 내비게이션 작업을 계획하고 실행할 수 있음을 시연한다.
- 일반화 및 로버스트함을 평가하기 위해 LM-Nav를 야외 실세계 환경에서 평가한다.
제안 방법
- 로봇 관찰로부터 환경의 위상 맵을 구축하기 위해 ViNG를 시각 내비게이션 모델로 사용한다.
- 자유 형식의 자연어 지시를 일련의 텍스트 랜드마크로 번역하기 위해 GPT-3를 사용한다.
- CLIP을 사용하여 랜드마크 설명을 위상 맵의 노드에 연결시키고 P(v|l)를 계산한다.
- 그래프 노드 간의 랜드마크 적합도와 순회 가능성에 대한 확률적 추론으로 계획을 형식화하고, 동적 프로그래밍(그래프 탐색)을 통해 이동 경로를 최적화한다.
- 환경을 이동하기 위해 ViNG의 행동 예측을 사용하여 결과 계획을 실행한다.
실험 결과
연구 질문
- RQ1자유 형식의 자연어 지시가 로봇의 위상 맵에 근거를 둘 수 있는 랜드마크 시퀀스로 파싱될 수 있는가?
- RQ2미세조정 없이도 오프더셸프 LLM/ VLM/VNM을 결합하여 자연어로부터 장기-야외 탐색을 가능하게 할 수 있는가?
- RQ3실세계의 야외 시각 자료에서 랜드마크를 근거화하는 데 어떤 한계가 있으며, 이것이 계획과 실행에 어떤 영향을 미치는가?
주요 결과
- LM-Nav는 20개의 야외 질의에 대해 약 85%의 계획 및 실행 성공을 달성한다.
- 시스템은 로봇 특화 데이터나 미세조정 없이도 복잡한 교외 환경에서 수백 미터에 걸친 내비게이션을 가능하게 한다.
- 성공한 실행에서 LM-Nav은 최소한의 분리를 보이며 높은 효율의 이동을 시연한다(평균 6.4 km당 1회의 개입).
- 구성요소를 제거한 실험은 VNM이 충돌 회피와 순회 가능성 판단에 결정적임을 보여준다.
- CLIP-ViT로 랜드마크를 근거화하는 것이 평가된 VLM들 중 가장 안정적인 탐지를 제공하며, GPT-3는 지시를 랜드마크로 안정적으로 파싱한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.