[논문 리뷰] RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization
RDT2는 7B 비전-언어-액션 모델로, 미공개 UMI 데이터 10,000시간 이상으로 학습되어 보이지 않는 객체, 장면, 지시 및 구현에 대해 제로샷 일반화를 가능하게 한다. RVQ 양자화, 확산 기반 행동 학습, 그리고 실시간 추론을 위한 확산 증류를 포함하는 3단계 학습 파이프라인을 사용한다.
Vision-Language-Action (VLA) models hold promise for generalist robotics but currently struggle with data scarcity, architectural inefficiencies, and the inability to generalize across different hardware platforms. We introduce RDT2, a robotic foundation model built upon a 7B parameter VLM designed to enable zero-shot deployment on novel embodiments for open-vocabulary tasks. To achieve this, we collected one of the largest open-source robotic datasets--over 10,000 hours of demonstrations in diverse families--using an enhanced, embodiment-agnostic Universal Manipulation Interface (UMI). Our approach employs a novel three-stage training recipe that aligns discrete linguistic knowledge with continuous control via Residual Vector Quantization (RVQ), flow-matching, and distillation for real-time inference. Consequently, RDT2 becomes one of the first models that simultaneously zero-shot generalizes to unseen objects, scenes, instructions, and even robotic platforms. Besides, it outperforms state-of-the-art baselines in dexterous, long-horizon, and dynamic downstream tasks like playing table tennis. See https://rdt-robotics.github.io/rdt2/ for more information.
연구 동기 및 목표
- 로봇공학을 위한 Vision-Language-Action 모델에서 데이터 부족과 교차 구현 일반화를 해결한다.
- 새로운 로봇 및 개방 어휘 작업에 대한 제로샷 배치를 가능하게 한다.
- 대규모 구현 불가지 데이터로 대상 객체, 장면, 지시 및 구현 전반에 걸친 일반화를 개선한다.
- 동적 로봇 작업에 적합한 빠르고 실시간 추론을 시연한다.
제안 방법
- 불연속 액션 토큰과 연속 액션 학습을 결합한 3단계 학습 파이프라인.
- 1단계: 잔차 벡터 양자화(RVQ)로 연속 액션을 이산화하고 교차 엔트로피로 VLM를 사전학습한다.
- 2단계: VLM를 고정하고 흐름 매칭 손실로 연속 액션을 생성하는 확산 기반 액션 전문가를 학습한다.
- 3단계: 확산 정책을 단일 단계 생성기로 증류하여 초고속 추론을 가능하게 한다.
실험 결과
연구 질문
- RQ1RDT2가 미관찰 구현, 물체, 장면 및 지시에 대해 미세조정 없이 제로샷 일반화를 달성할 수 있는가?
- RQ2데이터 규모와 모델 크기가 RDT2의 일반화에 어떤 영향을 미치는가(확대 법칙)?
- RQ3도전적인 완전한 협응, 긴 시간 범위 및 동적 과제에서 미세조정된 VLAs와 비교했을 때 RDT2의 성능 차이는 무엇인가?
- RQ4훈련 구성요소(RVQ, 확산, 증류)의 성능 기여도는 무엇인가?
- RQ5대규모 구현 비의존 데이터가 교차 구현 전이성에 미치는 영향은 무엇인가?
주요 결과
- RDT2는 보이지 않는 물체, 장면, 지시 및 구현에 대해 제로샷 일반화를 수행하며 개방 어휘 작업에서 활용 가능하다.
- 모델 크기와 데이터 모두를 확대하면 알려진 규모의 법칙에 따라 일관된 성능 향상을 보인다.
- RDT2는 변형 가능한 물체 조작, 긴 시간의 과제, 탁구와 같은 동적 과제에서 π0-FAST 및 π0-FAST 대비 우수한 성능을 보인다.
- 2단계 확산 기반 액션 학습은 성능 저하 없이 추론 효율을 개선한다.
- 3단계 확산 증류는 실시간 과제에 적합한 초고속 단일 단계 액션 생성을 가능하게 한다.
- Ablation 연구를 통해 AR+Diffusion 학습, RVQ 이산화, 증류 구성의 효과가 확인된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.