[논문 리뷰] An Embodied Generalist Agent in 3D World
LEO는 3D 환경에서 캡션 생성, QA, 내비게이션 및 조작을 포함하여 3D 환경을 인지하고, 접지하고, 추론하고, 계획하고, 행동하는 두 단계(3D 시각-언어 정렬 및 3D 시각-언어-행동 명령 조정)로 학습된 구현체 다중 모달 일반 지능 에이전트다.
Leveraging massive knowledge from large language models (LLMs), recent machine learning models show notable successes in general-purpose task solving in diverse domains such as computer vision and robotics. However, several significant challenges remain: (i) most of these models rely on 2D images yet exhibit a limited capacity for 3D input; (ii) these models rarely explore the tasks inherently defined in 3D world, e.g., 3D grounding, embodied reasoning and acting. We argue these limitations significantly hinder current models from performing real-world tasks and approaching general intelligence. To this end, we introduce LEO, an embodied multi-modal generalist agent that excels in perceiving, grounding, reasoning, planning, and acting in the 3D world. LEO is trained with a unified task interface, model architecture, and objective in two stages: (i) 3D vision-language (VL) alignment and (ii) 3D vision-language-action (VLA) instruction tuning. We collect large-scale datasets comprising diverse object-level and scene-level tasks, which require considerable understanding of and interaction with the 3D world. Moreover, we meticulously design an LLM-assisted pipeline to produce high-quality 3D VL data. Through extensive experiments, we demonstrate LEO's remarkable proficiency across a wide spectrum of tasks, including 3D captioning, question answering, embodied reasoning, navigation and manipulation. Our ablative studies and scaling analyses further provide valuable insights for developing future embodied generalist agents. Code and data are available on project page.
연구 동기 및 목표
- 일반지능 에이전트의 2D 도메인 너머 3D 이해 격차를 해소한다.
- 3D 환경에서 인지, 접지, 추론, 계획, 행동 가능 한 통합 아키텍처를 개발한다.
- 장대 규모의 다중 모달 3D 데이터셋을 장면 그래프와 객체 중심 프롬프트와 함께 만든다.
- 3D 시각-언어 태스크 및 구현형 로봇 공학 태스크에 대해 최첨단 성능을 입증한다.
- 데이터 및 모델 확장 효과를 분석하여 향후 구현형 일반지능 에이전트를 안내한다.
제안 방법
- 2D 이미지 토큰, 객체 중심의 3D 토큰, 텍스트 토큰을 결합한 단일 토큰 스트림을 사용하여 모든 작업을 자기회귀 시퀀스 예측으로 공식화한다.
- LoRA 미세 조정이 가능한 사전 학습된 LLM(Vicuna-7B)을 사용해 다중 모달 입력을 접지하고 텍스트 및 행동 토큰을 생성한다.
- 2D 이미지를 OpenCLIP 기반 인코딩으로 토크나이즈하고 3D 객체를 PointNet++와 공간 변환기로 관계적 3D 추론을 수행한다.
- 두 단계로 학습한다: 3D 시각-언어 정렬(LEO-align) 및 3D 시각-언어-행동 명령 조정(LEO-instruct).
- 연속 행동을 예약 토큰으로 이산화하여 2D 내비게이션과 조작 행동을 통합한다.
- 장대 규모의 3D VL 데이터를 장면 그래프 프롬프트 프롬프트와 객체 중심의 사고 체인(O-CoT) 데이터 생성으로 큐레이션하고, 그 후 정제 절차를 거친다.
- 3D 캡션, 3D QA, 구현형 추론, 구현형 내비게이션 및 로봇 조작에서 평가하고, 바리에이션 및 확장 분석을 수행한다.]
실험 결과
연구 질문
- RQ1통일된 아키텍처가 3D 세계에서 인지, 접지, 추론, 계획 및 행동을 어떤 방식으로 가능하게 만드는가?
- RQ23D 시각-언어-행동 태스크에 대해 align-then-instruct 전략의 효과는 어떤가?
- RQ3데이터 및 모델 확장 법칙이 3D 구현형 일반지능 에이전트의 성능에 어떤 영향을 미치는가?
- RQ4객체 중심의 3D 접지가 LLM과 인터페이스될 때 접지 및 계획이 개선되는가?
- RQ5지시 조정 및 데이터 증강을 통해 모델이 보지 못한 3D 장면과 태스크로 일반화할 수 있는가?
주요 결과
- LEO는 대부분의 3D VL 캡션 및 QA 태스크에서 작업별 및 일반지향 베이스라인과 비교하여 최첨단 성능을 달성한다.
- 통일된 모델로의 명령 조정이 다양한 3D 도메인에서 대부분의 기존 태스크별 모델보다 우수하다.
- 3D 시각-언어 정렬을 위한 사전 학습은 VLA 명령 조정 성능을 크게 향상시킨다.
- 학습 데이터를 확장하면 의미 있는 성능 향상이 있어 LLM 및 일반지향 에이전트에서 관찰된 확장 법칙과 일치한다.
- LEO는 장면에 대해 접지된 대화 및 계획을 가능하게 하며, 3D 장면에서 일관된 상호작용과 구체적 행동 접지를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.