[논문 리뷰] Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning
ViLa는 GPT-4V를 단일한 비전-언어 계획자로 사용하여 시각 데이터를 Grounding하고, 열린 세계 조작에서 LLM 기반 계획자들을 능가합니다. 다중모달 목표와 시각 피드백을 통해 폐루프(plan) planning을 지원합니다.
In this study, we are interested in imbuing robots with the capability of physically-grounded task planning. Recent advancements have shown that large language models (LLMs) possess extensive knowledge useful in robotic tasks, especially in reasoning and planning. However, LLMs are constrained by their lack of world grounding and dependence on external affordance models to perceive environmental information, which cannot jointly reason with LLMs. We argue that a task planner should be an inherently grounded, unified multimodal system. To this end, we introduce Robotic Vision-Language Planning (ViLa), a novel approach for long-horizon robotic planning that leverages vision-language models (VLMs) to generate a sequence of actionable steps. ViLa directly integrates perceptual data into its reasoning and planning process, enabling a profound understanding of commonsense knowledge in the visual world, including spatial layouts and object attributes. It also supports flexible multimodal goal specification and naturally incorporates visual feedback. Our extensive evaluation, conducted in both real-robot and simulated environments, demonstrates ViLa's superiority over existing LLM-based planners, highlighting its effectiveness in a wide array of open-world manipulation tasks.
연구 동기 및 목표
- scene-aware하고 grounded한 로봇 작업 계획의 필요성을 purely linguistic reasoning을 넘어서 제시한다.
- 시각 관찰을 직접 Reasoning 및 planning에 활용하는 unified vision-language planning 접근법(ViLa)을 제안한다.
- 비전의 계획 반영이(open-world) 공간 배치와 물체 속성의 이해를 개선함을 보여준다.
- 실세계 및 시뮬레이션 설정에서 다중모달 목표 명세와 시각 피드백을 통한 ViLa의 능력을 입증한다.]
- method_start_placeholder
제안 방법
- 고수준 지시와 일련의 원시 기술로부터 텍스트 행동의 시퀀스를 생성하는 방식으로 장기 로봇 계획을 형식화한다.
- 외부 정당화 모듈 없이 현재 시각 관찰과 지시로부터 단계별 계획을 산출하는 비전-언어 모델(VLM), 구체적으로 GPT-4V를 활용한다.
- 첫 번째 계획 단계를 대응하는 원시 정책으로 실행하고 폐루프 planning을 위한 시각 관찰을 업데이트한다.
- 동적 환경에서 재계획하기 위해 VLM에 시각 피드백을 직접 입력으로 활용한다.
- 실세계 및 시뮬레이션 작업에서 ViLa를 SayCan 및 Grounded Decoding과 비교하여 시각- grounded reasoning의 이점을 평가한다.
실험 결과
연구 질문
- RQ1시각 데이터를 Grounding한 통합 멀티모달 플래너가 외부 어포던스 모델에 의존하는 LLM 기반 계획자보다 우수할 수 있는가?
- RQ2계획에 비전을 직접 반영하는 것이 로봇 작업의 공간 배치 및 물체 속성 이해를 향상시키는가?
- RQ3ViLa가 다중모달 목표 명세를 얼마나 잘 처리하고 시각 피드백을 사용하여 강건하고 장기적인 계획을 유지할 수 있는가?
주요 결과
| Task | SayCan | GD | ViLa |
|---|---|---|---|
| Pour Chips | 20% | 40% | 80% |
| Bring Pepsi Can | 40% | 30% | 90% |
| Bring Empty Plate | 0% | 0% | 100% |
| Take Out Marvel Model | 0% | 10% | 70% |
| Righteous Characters | 0% | 10% | 80% |
| Pick Fresh Fruits | 20% | 30% | 80% |
| Stack Plates Steadily | 20% | 10% | 70% |
| Prepare Art Class | 0% | 30% | 70% |
- ViLa는 공간 배치 및 물체 속성 이해가 필요한 실제 작업에서 SayCan 및 Grounded Decoding보다 더 높은 성공률을 달성한다.
- ViLa는 이미지 전용 및 언어+이미지 지시를 포함한 유연한 다중모달 목표를 지원하며 평가된 작업에서 강한 작업 성공을 보인다.
- 비주얼 피드백을 이용한 폐루프 ViLa는 동적 환경에서의 재계획을 보여주며 OPEN-LOOP 변형을 크게 능가한다.
- 시뮬레이션된 RAVENS 실험에서도 ViLa가 보상 없이도_seen 및 unseen 작업에서 여전히 Baselines를 능가하는 일반화능력을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.