QUICK REVIEW

[논문 리뷰] $π_0$: A Vision-Language-Action Flow Model for General Robot Control

Kevin Black, Noah Brown|arXiv (Cornell University)|2024. 10. 31.

Robotic Path Planning Algorithms인용 수 7

한 줄 요약

π0은 비전-언어 모델과 흐름 매칭 액션 생성을 융합한 일반적 로봇 정책으로, 다양한 로봇에 걸쳐 학습되어 제로샷 및 미세 조정된 정교한 작업을 수행합니다.

ABSTRACT

Robot learning holds tremendous promise to unlock the full potential of flexible, general, and dexterous robot systems, as well as to address some of the deepest questions in artificial intelligence. However, bringing robot learning to the level of generality required for effective real-world systems faces major obstacles in terms of data, generalization, and robustness. In this paper, we discuss how generalist robot policies (i.e., robot foundation models) can address these challenges, and how we can design effective generalist robot policies for complex and highly dexterous tasks. We propose a novel flow matching architecture built on top of a pre-trained vision-language model (VLM) to inherit Internet-scale semantic knowledge. We then discuss how this model can be trained on a large and diverse dataset from multiple dexterous robot platforms, including single-arm robots, dual-arm robots, and mobile manipulators. We evaluate our model in terms of its ability to perform tasks in zero shot after pre-training, follow language instructions from people and from a high-level VLM policy, and its ability to acquire new skills via fine-tuning. Our results cover a wide variety of tasks, such as laundry folding, table cleaning, and assembling boxes.

연구 동기 및 목표

로봇 학습의 데이터, 일반화, 로버스트니스 문제를 해결하기 위해 일반적 로봇 정책(로봇 기초 모델)을 구축하는 것을 목표로 한다.
사전 학습된 비전-언어 모델을 통해 인터넷 규모의 시맨틱 지식을 물려받고, 이를 흐름 매칭 액션 출력으로 확장하여 정교한 제어를 가능하게 한다.
일곱 가지 로봇 구성에 걸친 교차 구현 훈련을 가능하게 한 뒤, 제로샷, 언어 조건 제어, 그리고 다운스트림 작업에 대한 미세 조정을 평가한다.

제안 방법

사전 학습된 비전-언어 모델 백본(PaliGemma)을 사용하고 로봇공학 특화 입력/출력을 위한 전용 액션 전문가를 추가한다.
조건부 흐름 매칭으로 연속적인 액션 분포를 모델링하여 고주파 제어(최대 50 Hz)를 가능하게 한다.
사전 학습 데이터 혼합물(로봇 조작 데이터와 오픈 소스 데이터)을 사용하고, 고품질의 작업 특화 데이터로 구성된 사후 학습 단계를 거친다.
다양한 로봇 구성에서 데이터를 모아 하나의 모델로 통합하기 위해 크로스-엠보디먼트 훈련을 활용한다.
언어 지시와 고유감각 상태를 시각 입력과 통합하여 언어 조건부 제어 및 고수준 정책 보조 제어를 가능하게 한다.
복잡한 작업을 중간 언어 가이드 단계로 분해하기 위해 고수준 시맨틱 정책을 선택적으로 사용할 수 있다.

실험 결과

연구 질문

RQ1사전 학습 후 제로샷에서 다양한 작업을 수행하는 데 사전 학습된 π0 모델의 능력은 어느 정도인가?
RQ2직접 언어 입력과 고수준 정책 또는 전문가 지시 모두에서 π0가 언어 명령을 얼마나 잘 따르는가?
RQ3다운스트림 작업에서 π0가 기존 최첨단 방법들과 비교하면 어떤가?
RQ4미세 조정이나 고수준 정책의 지도를 통해 복잡하고 다단계 작업에 효과적으로 적응할 수 있는가?

주요 결과

π0은 OpenVLA 및 Octo와 같은 기준선과 비교하여 셔츠 접기, 버싱, grocery bagging, 토스터 작업에서 제로샷 성능이 우수하다.
적은 학습 단계(160k)로 학습된 동등한 버전도 여전히 기준선을 능가하고, π0-small 버전은 OpenVLA와 Octo보다 덜 떨어지지 않음을 보여주며 VLM 초기화의 이점을 강조한다.
모델의 흐름 매칭 액션 생성은 여러 로봇 구현에서 최대 50 Hz의 고주파 정교 제어를 가능하게 한다.
다양한 로봇 데이터(10,000시간 이상)로의 사전 학습과 작업 특화 사후 학습의 결합은 세탁물 접기와 같은 길고 복잡한 작업에서 강건한 다운스트림 성능을 제공한다.
교차 구현 훈련은 하나의 모델이 일곱 가지 로봇 구성의 제어를 가능하게 하여 다양한 형태에 걸친 일반화를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.