Skip to main content
QUICK REVIEW

[논문 리뷰] VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

Pengying Wu, Yao Mu|arXiv (Cornell University)|2024. 01. 05.
Multimodal Machine Learning Applications인용 수 8
한 줄 요약

VoroNav 은 Reduced Voronoi Graph 와 LLM 기반 추론을 사용하여 제로샷 물체 탐색을 위한 정보성 웨이포인트를 계획하고 HM3D 및 HSSD 데이터셋에서 최신 성능을 달성합니다.

ABSTRACT

In the realm of household robotics, the Zero-Shot Object Navigation (ZSON) task empowers agents to adeptly traverse unfamiliar environments and locate objects from novel categories without prior explicit training. This paper introduces VoroNav, a novel semantic exploration framework that proposes the Reduced Voronoi Graph to extract exploratory paths and planning nodes from a semantic map constructed in real time. By harnessing topological and semantic information, VoroNav designs text-based descriptions of paths and images that are readily interpretable by a large language model (LLM). In particular, our approach presents a synergy of path and farsight descriptions to represent the environmental context, enabling LLM to apply commonsense reasoning to ascertain waypoints for navigation. Extensive evaluation on HM3D and HSSD validates VoroNav surpasses existing benchmarks in both success rate and exploration efficiency (absolute improvement: +2.8% Success and +3.7% SPL on HM3D, +2.6% Success and +3.8% SPL on HSSD). Additionally introduced metrics that evaluate obstacle avoidance proficiency and perceptual efficiency further corroborate the enhancements achieved by our method in ZSON planning. Project page: https://voro-nav.github.io

연구 동기 및 목표

  • 명시적 학습 없이 미지의 환경에서 제로샷 물체 탐색(ZSON)을 고무한다.
  • Reduced Voronoi Graph(RVG)를 제안하여 실시간 의미 맵에서 정보성 탐색 웨이포인트를 추출한다.
  • 맵과 이미지 관찰을 텍스트 프롬프트로 융합하여 LLM 기반의 상식 추론으로 중간 목표를 선택한다.
  • 탐색, 효율성, 의미 맥락 지표를 결합한 계층형 보상 프레임워크를 개발하여 의사결정을 안내한다.
  • HM3D와 HSSD에서 추가 계획 및 인지 지표와 함께 최신 성능을 시연한다.

제안 방법

  • RGB-D 데이터와 에이전트 포즈로 의미 2D 맵을 구성한다.
  • 맵의 일반화된 Voronoi 도형에서 Global RVG를 생성하고 노드를 에이전트, 이웃, 탐색, 일반 집합으로 분류한다.
  • RVG 간선 및 파사이트 이미지 캡션에 따른 경로 서술을 만들어 LLM에 대한 풍부한 프롬프트를 형성한다.
  • 통합 경로 및 파사이트 서술을 바탕으로 GPT-3.5로 추론하여 중간 목표로 유망한 이웃 노드를 선택한다.
  • 빠른 행진 방법으로 저수준 행동을 계획하고 Voronoi 노드에서 다시 계획하며 목표에 도달할 때까지 반복한다.
  • 탐색, 효율성, LLM 유도 의미 지도로 다음 웨이포인트를 선택하는 계층형 보상 설계를 도입한다.

실험 결과

연구 질문

  • RQ1Reduced Voronoi Graph가 ZSON을 위한 정보성 웨이포인트 계획을 어떻게 가능하게 하는가?
  • RQ2경로 기반 설명과 파사이트 이미지 설명을 결합하면 LLM의 탐색 의사결정 추론이 향상되는가?
  • RQ3LLM 주도, 토폴로지에 기반한 의사결정 프로세스가 HM3D와 HSSD에서 기존 ZSON 벤치마크를 능가하는가?
  • RQ4토폴로지 기반 보상과 함께 LLM으로부터의 의미 보상을 통합하는 것이 탐색 성능에 어떤 영향을 미치는가?

주요 결과

  • VoroNav은 HM3D 및 HSSD에서 벤치마크보다 높은 성공률과 SPL을 달성한다(결과 표 기준).
  • 절단 실험은 경로 및 파사이트 설명이 모두 성능에 기여함을 보여주며, 전체 VoroNav이 Voronoi 및 절단 실험보다 우수하다.
  • 계획 지표는 Voronoi 기반 방법( VoroNav 포함 )이 프런티어 방법보다 더 나은 SCA(장애물 회피) 및 SEA(탐색된 영역 효율성) 를 달성함을 시사한다.
  • LLM 주도 추론이 경로/파사이트 프롬프트를 결합하여 더 정보에 근거한 중간 목표를 제시하고 탐색 효율성을 향상시킨다.
  • 제안은 보고된 평가에서 HM3D 및 HSSD 데이터셋의 ZSON에 대한 최첨단 결과를 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.