QUICK REVIEW

[論文レビュー] RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

Songming Liu, Binghui Li|arXiv (Cornell University)|Feb 3, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

RDT2は、見たことのない物体・場面・指示・ embodiment に対してゼロショット一般化を実現するため、UMIデータ10,000時間超で訓練された7BのVision-Language-Actionモデルであり、RVQ離散化、拡散ベースのアクション学習、およびリアルタイム推論のための拡散蒸留を用いた3段階のトレーニングパイプラインを採用している。

ABSTRACT

Vision-Language-Action (VLA) models hold promise for generalist robotics but currently struggle with data scarcity, architectural inefficiencies, and the inability to generalize across different hardware platforms. We introduce RDT2, a robotic foundation model built upon a 7B parameter VLM designed to enable zero-shot deployment on novel embodiments for open-vocabulary tasks. To achieve this, we collected one of the largest open-source robotic datasets--over 10,000 hours of demonstrations in diverse families--using an enhanced, embodiment-agnostic Universal Manipulation Interface (UMI). Our approach employs a novel three-stage training recipe that aligns discrete linguistic knowledge with continuous control via Residual Vector Quantization (RVQ), flow-matching, and distillation for real-time inference. Consequently, RDT2 becomes one of the first models that simultaneously zero-shot generalizes to unseen objects, scenes, instructions, and even robotic platforms. Besides, it outperforms state-of-the-art baselines in dexterous, long-horizon, and dynamic downstream tasks like playing table tennis. See https://rdt-robotics.github.io/rdt2/ for more information.

研究の動機と目的

ロボット工学のVision-Language-Actionモデルにおけるデータ不足と跨 embodiment な一般化の課題に対処する。
新規ロボットとオープン語彙タスクでのゼロショット展開を可能にする。
物体・場景・指示・ embodiment を横断した一般化を向上させるため、大規模な embodiment に依存しないデータを活用する。
動的なロボットタスクに適した高速・リアルタイム推論を実証する。

提案手法

離散アクショントークンと連続アクション学習を組み合わせた3段階のトレーニングパイプライン。
ステージ1：連続アクションをResidual Vector Quantization（RVQ）で離散化し、交差エントロピーでVLMを事前訓練。
ステージ2：VLMを凍結し、流れ整合性損失を用いた拡散ベースのアクションエキスパートを訓練して連続アクションを生成。
ステージ3：拡散ポリシーを単一ステップのジェネレータへ蒸留し、超高速推論を実現。

実験結果

リサーチクエスチョン

RQ1RDT2はファインチューニングなしで見かけない embodiment、物体、場面、指示へゼロショット一般化できるか。
RQ2データスケールとモデルサイズはRDT2の一般化にどのような影響を与えるか（スケーリング則）？
RQ3難易度の高い巧緻性、長期的・動的タスクでファインチューニングした場合、RDT2は最先端のVLAとどう比較されるか。
RQ4トレーニング要素ごとの寄与（RVQ、拡散、蒸留）は性能にどのように影響するか。
RQ5大規模な embodiment-agnosticデータが跨 embodiment 転移へ与える影響はどの程度か。

主な発見

RDT2は、見慣れない物体、場面、指示、および embodiment に対してゼロショーット一般化をオープン語彙タスクで達成する。
モデルサイズとデータの両方をスケールさせると、認識可能なスケーリング則に従って一貫した性能向上を得られる。
RDT2は、デフォーメーション可能な物体操作、長期的タスク、および卓球のような動的タスクにおいて、π0-FASTやπ0-FASTよりも優れている（ベースラインを上回る）。
ステージ2の拡散ベースアクション学習は、性能を損なうことなく推論効率を向上させる。
ステージ3の拡散蒸留は、リアルタイムタスクに適した超高速のワンステップアクション生成を実現する。
アブレーションにより、AR+Diffusionトレーニング、RVQ離散化、および蒸留コンポーネントの有効性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。