QUICK REVIEW

[論文レビュー] Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation

Chongyang Xu, Yixian Zou|arXiv (Cornell University)|Mar 12, 2026

Robot Manipulation and Learning被引用数 0

ひとこと要約

Ada3Driftは drifting field を用いて訓練時間に反復的な精緻化を移し替え、多様なモードを保持することで1ステップ（1 NFE）3D 視覚運動ポリシーを実現し、最先端の性能とリアルタイム推論を達成します。

ABSTRACT

Diffusion-based visuomotor policies effectively capture multimodal action distributions through iterative denoising, but their high inference latency limits real-time robotic control. Recent flow matching and consistency-based methods achieve single-step generation, yet sacrifice the ability to preserve distinct action modes, collapsing multimodal behaviors into averaged, often physically infeasible trajectories. We observe that the compute budget asymmetry in robotics (offline training vs.\ real-time inference) naturally motivates recovering this multimodal fidelity by shifting iterative refinement from inference time to training time. Building on this insight, we propose Ada3Drift, which learns a training-time drifting field that attracts predicted actions toward expert demonstration modes while repelling them from other generated samples, enabling high-fidelity single-step generation (1 NFE) from 3D point cloud observations. To handle the few-shot robotic regime, Ada3Drift further introduces a sigmoid-scheduled loss transition from coarse distribution learning to mode-sharpening refinement, and multi-scale field aggregation that captures action modes at varying spatial granularities. Experiments on three simulation benchmarks (Adroit, Meta-World, and RoboTwin) and real-world robotic manipulation tasks demonstrate that Ada3Drift achieves state-of-the-art performance while requiring $10 imes$ fewer function evaluations than diffusion-based alternatives.

研究の動機と目的

ロボット操作における拡散モデル由来のポリシーを単一ステップ生成へ加速する際のモード平均化問題を動機づけ、分析する。
訓練時間 drift-framework（Ada3Drift）を提案し、訓練中にデモンストレーションされたモードを引き寄せ、他のサンプルを反発させる。
few-shot、multi-task ロボティクスの体制へ対応するため、multi-scale drifting と sigmoid-scheduled loss を導入する。
推論時に1フォワードパス（1 NFE）を実現する timestep-free アーキテクチャを提示し、リアルタイム制御を実現する。
シミュレーションベンチマークと実世界タスクで、計算量を大幅に削減しつつ最先端の性能を実証する。

提案手法

モード多様性を伴う単一ステップポリシー生成における速度-忠実度のトレードオフを形式化する。
訓練時間 drift-field V(x) を導入し、予測を専門モードへ引き寄せ、他のサンプルからは反発させる。
複数の温度でデモンストレーションモードへ予測を割り当てる雙方向アフィニティ（multi-τ 集約）を用いる。
訓練中には粗い MSE 学習から drift-based モード鋭化へ移行する sigmoid-scheduled loss を適用する。
グローバルな3D観測特徴 g に対して FiLM 条件付けを持つ 1NFE の 3D 観測エンコーダと 1D U-Net アクション生成器を採用する。
drift を周期的な再計画（N_a=8, H=16）で補正するためのテスト時の receding-horizon 実行を採用する。

Figure 4 : Training curves on Adroit dexterous manipulation tasks. Success rate (mean $\pm$ std over 3 seeds) versus training epoch. Ada3Drift consistently matches or outperforms other single-step methods (Flow Policy, MP1) across all three tasks.

実験結果

リサーチクエスチョン

RQ1訓練時間の反復的精緻化は、単一ステップ（1 NFE）ポリシーで通常 Diffusion モデルが達成する多モード忠実度を回復できるか。
RQ2適応的 drift、マルチスケール集約、スケジュール学習は few-shot・multi-task の3D 視覚運動操作を改善できるか。
RQ3訓練時間への再配置が、さまざまなタスクと実世界環境で安全性とタスク成功率を維持するか。
RQ4 timestep-free アーキテクチャが推論速度とリアルタイム制御周波数に与える影響はどの程度か。
RQ5Ada3Driftは標準ベンチマークにおける既存の1-stepおよび拡散ベースのベースラインとどう比較されるか。

主な発見

Methods	NFE	Adroit	Meta-World	Avg.	Hammer	Door	Pen	Easy	Medium
DP	10	16 ± 10	34 ± 11	13 ± 2	50.7 ± 6.1	11.0 ± 2.5	5.3 ± 2.5	22.0 ± 5.0	35.2 ± 5.3
AdaFlow	–	45 ± 11	27 ± 6	18 ± 6	49.4 ± 6.8	12.0 ± 5.0	5.8 ± 4.0	24.0 ± 4.8	35.6 ± 6.1
CP	1	45 ± 4	31 ± 10	13 ± 6	69.3 ± 4.2	21.2 ± 6.0	17.5 ± 3.9	30.0 ± 4.9	50.1 ± 4.7
DP3	10	88.7 ± 1.2	64.2 ± 6.5	59.7 ± 3.1	85.5 ± 1.9	64.0 ± 3.5	58.6 ± 1.4	71.5 ± 2.5	78.0 ± 2.4
Simple DP3	10	86.0 ± 2.4	61.0 ± 4.5	61.0 ± 2.8	85.9 ± 1.9	64.3 ± 3.7	61.1 ± 3.4	70.7 ± 2.5	78.3 ± 2.7
FlowPolicy	1	77.0 ± 2.2	61.2 ± 4.7	58.0 ± 4.1	84.3 ± 2.6	62.7 ± 3.2	61.1 ± 3.5	71.2 ± 2.7	77.0 ± 3.0
MP1	1	84.3 ± 3.1	64.2 ± 3.5	57.7 ± 4.5	85.8 ± 1.5	62.2 ± 7.5	62.3 ± 2.0	74.4 ± 4.3	78.6 ± 3.2
Ada3Drift	1	90.3 ± 0.9	65.0 ± 3.6	63.3 ± 3.1	86.7 ± 1.7	62.3 ± 2.7	60.7 ± 6.2	72.7 ± 4.5	79.2 ± 2.8

Ada3Drift は Adroit および Meta-World で 1-NFE 手法の中で最先端の単一ステップ性能を達成し、平均成功率は 78.9% である。
Ada3Drift は 10x 少ない関数評価数で DP3 のマルチステップベースライン（78.0%）と同等以上を達成する。
RoboTwin では Ada3Drift が平均成功率 71.2% の最高を達成し、DP3、FlowPolicy、MP1 を上回る。
現実世界の物理ロボット実験では Ada3Drift が平均成功率 79% の最高を示す。
アブレーションは、マルチスケール drifting と sigmoid scheduling の両方が改善に寄与することを示し、素朴な drifting は劣り、フルな Ada3Drift が最良の結果を得る。
Ada3Drift の推論速度は 233.9 Hz（1 step あたり 4.3 ms）で、通常の 10 Hz 制御要件を超える。

Figure 5 : Qualitative comparison. Predicted action trajectories of FlowPolicy, MP1, and Ada3Drift on representative tasks. Ada3Drift generates trajectories that better align with the expert demonstrations, especially in multimodal scenarios.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。