Skip to main content
QUICK REVIEW

[논문 리뷰] RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

Songming Liu, Binghui Li|arXiv (Cornell University)|2026. 02. 03.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

RDT2는 7B 비전-언어-액션 모델로, 미공개 UMI 데이터 10,000시간 이상으로 학습되어 보이지 않는 객체, 장면, 지시 및 구현에 대해 제로샷 일반화를 가능하게 한다. RVQ 양자화, 확산 기반 행동 학습, 그리고 실시간 추론을 위한 확산 증류를 포함하는 3단계 학습 파이프라인을 사용한다.

ABSTRACT

Vision-Language-Action (VLA) models hold promise for generalist robotics but currently struggle with data scarcity, architectural inefficiencies, and the inability to generalize across different hardware platforms. We introduce RDT2, a robotic foundation model built upon a 7B parameter VLM designed to enable zero-shot deployment on novel embodiments for open-vocabulary tasks. To achieve this, we collected one of the largest open-source robotic datasets--over 10,000 hours of demonstrations in diverse families--using an enhanced, embodiment-agnostic Universal Manipulation Interface (UMI). Our approach employs a novel three-stage training recipe that aligns discrete linguistic knowledge with continuous control via Residual Vector Quantization (RVQ), flow-matching, and distillation for real-time inference. Consequently, RDT2 becomes one of the first models that simultaneously zero-shot generalizes to unseen objects, scenes, instructions, and even robotic platforms. Besides, it outperforms state-of-the-art baselines in dexterous, long-horizon, and dynamic downstream tasks like playing table tennis. See https://rdt-robotics.github.io/rdt2/ for more information.

연구 동기 및 목표

  • 로봇공학을 위한 Vision-Language-Action 모델에서 데이터 부족과 교차 구현 일반화를 해결한다.
  • 새로운 로봇 및 개방 어휘 작업에 대한 제로샷 배치를 가능하게 한다.
  • 대규모 구현 불가지 데이터로 대상 객체, 장면, 지시 및 구현 전반에 걸친 일반화를 개선한다.
  • 동적 로봇 작업에 적합한 빠르고 실시간 추론을 시연한다.

제안 방법

  • 불연속 액션 토큰과 연속 액션 학습을 결합한 3단계 학습 파이프라인.
  • 1단계: 잔차 벡터 양자화(RVQ)로 연속 액션을 이산화하고 교차 엔트로피로 VLM를 사전학습한다.
  • 2단계: VLM를 고정하고 흐름 매칭 손실로 연속 액션을 생성하는 확산 기반 액션 전문가를 학습한다.
  • 3단계: 확산 정책을 단일 단계 생성기로 증류하여 초고속 추론을 가능하게 한다.

실험 결과

연구 질문

  • RQ1RDT2가 미관찰 구현, 물체, 장면 및 지시에 대해 미세조정 없이 제로샷 일반화를 달성할 수 있는가?
  • RQ2데이터 규모와 모델 크기가 RDT2의 일반화에 어떤 영향을 미치는가(확대 법칙)?
  • RQ3도전적인 완전한 협응, 긴 시간 범위 및 동적 과제에서 미세조정된 VLAs와 비교했을 때 RDT2의 성능 차이는 무엇인가?
  • RQ4훈련 구성요소(RVQ, 확산, 증류)의 성능 기여도는 무엇인가?
  • RQ5대규모 구현 비의존 데이터가 교차 구현 전이성에 미치는 영향은 무엇인가?

주요 결과

  • RDT2는 보이지 않는 물체, 장면, 지시 및 구현에 대해 제로샷 일반화를 수행하며 개방 어휘 작업에서 활용 가능하다.
  • 모델 크기와 데이터 모두를 확대하면 알려진 규모의 법칙에 따라 일관된 성능 향상을 보인다.
  • RDT2는 변형 가능한 물체 조작, 긴 시간의 과제, 탁구와 같은 동적 과제에서 π0-FAST 및 π0-FAST 대비 우수한 성능을 보인다.
  • 2단계 확산 기반 액션 학습은 성능 저하 없이 추론 효율을 개선한다.
  • 3단계 확산 증류는 실시간 과제에 적합한 초고속 단일 단계 액션 생성을 가능하게 한다.
  • Ablation 연구를 통해 AR+Diffusion 학습, RVQ 이산화, 증류 구성의 효과가 확인된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.