QUICK REVIEW

[논문 리뷰] RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

Songming Liu, Binghui Li|arXiv (Cornell University)|2026. 02. 03.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

RDT2는 7B 비전-언어-액션 모델로, 미공개 UMI 데이터 10,000시간 이상으로 학습되어 보이지 않는 객체, 장면, 지시 및 구현에 대해 제로샷 일반화를 가능하게 한다. RVQ 양자화, 확산 기반 행동 학습, 그리고 실시간 추론을 위한 확산 증류를 포함하는 3단계 학습 파이프라인을 사용한다.

ABSTRACT

Vision-Language-Action (VLA) models hold promise for generalist robotics but currently struggle with data scarcity, architectural inefficiencies, and the inability to generalize across different hardware platforms. We introduce RDT2, a robotic foundation model built upon a 7B parameter VLM designed to enable zero-shot deployment on novel embodiments for open-vocabulary tasks. To achieve this, we collected one of the largest open-source robotic datasets--over 10,000 hours of demonstrations in diverse families--using an enhanced, embodiment-agnostic Universal Manipulation Interface (UMI). Our approach employs a novel three-stage training recipe that aligns discrete linguistic knowledge with continuous control via Residual Vector Quantization (RVQ), flow-matching, and distillation for real-time inference. Consequently, RDT2 becomes one of the first models that simultaneously zero-shot generalizes to unseen objects, scenes, instructions, and even robotic platforms. Besides, it outperforms state-of-the-art baselines in dexterous, long-horizon, and dynamic downstream tasks like playing table tennis. See https://rdt-robotics.github.io/rdt2/ for more information.

연구 동기 및 목표

로봇공학을 위한 Vision-Language-Action 모델에서 데이터 부족과 교차 구현 일반화를 해결한다.
새로운 로봇 및 개방 어휘 작업에 대한 제로샷 배치를 가능하게 한다.
대규모 구현 불가지 데이터로 대상 객체, 장면, 지시 및 구현 전반에 걸친 일반화를 개선한다.
동적 로봇 작업에 적합한 빠르고 실시간 추론을 시연한다.

제안 방법

불연속 액션 토큰과 연속 액션 학습을 결합한 3단계 학습 파이프라인.
1단계: 잔차 벡터 양자화(RVQ)로 연속 액션을 이산화하고 교차 엔트로피로 VLM를 사전학습한다.
2단계: VLM를 고정하고 흐름 매칭 손실로 연속 액션을 생성하는 확산 기반 액션 전문가를 학습한다.
3단계: 확산 정책을 단일 단계 생성기로 증류하여 초고속 추론을 가능하게 한다.

실험 결과

연구 질문

RQ1RDT2가 미관찰 구현, 물체, 장면 및 지시에 대해 미세조정 없이 제로샷 일반화를 달성할 수 있는가?
RQ2데이터 규모와 모델 크기가 RDT2의 일반화에 어떤 영향을 미치는가(확대 법칙)?
RQ3도전적인 완전한 협응, 긴 시간 범위 및 동적 과제에서 미세조정된 VLAs와 비교했을 때 RDT2의 성능 차이는 무엇인가?
RQ4훈련 구성요소(RVQ, 확산, 증류)의 성능 기여도는 무엇인가?
RQ5대규모 구현 비의존 데이터가 교차 구현 전이성에 미치는 영향은 무엇인가?

주요 결과

RDT2는 보이지 않는 물체, 장면, 지시 및 구현에 대해 제로샷 일반화를 수행하며 개방 어휘 작업에서 활용 가능하다.
모델 크기와 데이터 모두를 확대하면 알려진 규모의 법칙에 따라 일관된 성능 향상을 보인다.
RDT2는 변형 가능한 물체 조작, 긴 시간의 과제, 탁구와 같은 동적 과제에서 π0-FAST 및 π0-FAST 대비 우수한 성능을 보인다.
2단계 확산 기반 액션 학습은 성능 저하 없이 추론 효율을 개선한다.
3단계 확산 증류는 실시간 과제에 적합한 초고속 단일 단계 액션 생성을 가능하게 한다.
Ablation 연구를 통해 AR+Diffusion 학습, RVQ 이산화, 증류 구성의 효과가 확인된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.