QUICK REVIEW

[論文レビュー] Draft-and-Target Sampling for Video Generation Policy

Qikang Zhang, Yingjie Lei|arXiv (Cornell University)|Mar 13, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

Draft-and-Target Sampling (DTS) は、単一モデル内の二つの補完的なノイズ除去軌道とトークン分割および漸進的受理を組み合わせた訓練不要の拡散推論フレームワークで、ビデオ生成ポリシー推論を最大2.1倍高速化し、成功率の低下を最小限に抑えます。

ABSTRACT

Video generation models have been used as a robot policy to predict the future states of executing a task conditioned on task description and observation. Previous works ignore their high computational cost and long inference time. To address this challenge, we propose Draft-and-Target Sampling, a novel diffusion inference paradigm for video generation policy that is training-free and can improve inference efficiency. We introduce a self-play denoising approach by utilizing two complementary denoising trajectories in a single model, draft sampling takes large steps to generate a global trajectory in a fast manner and target sampling takes small steps to verify it. To further speedup generation, we introduce token chunking and progressive acceptance strategy to reduce redundant computation. Experiments on three benchmarks show that our method can achieve up to 2.1x speedup and improve the efficiency of current state-of-the-art methods with minimal compromise to the success rate. Our code is available.

研究の動機と目的

embodied エージェントにおけるビデオ生成ポリシーのより高速なリアルタイム推論を動機づける。
別のドラフトモデルを訓練せずに済む訓練不要な方法を導入する。
ロボティクスベンチマークで推論時間を短縮しつつタスク成功率を保つ。
計算と精度を制御するメカニズム（トークン分割と漸進的受理）を提供する。

提案手法

1つの拡散モデルを使用してドラフトとターゲットの両方の denoising 軌道を実行する。
ドラフト採取は大きなステップで粗いデノイジングトークンを生成し、ドラフト系列を形成する。
ターゲット採取は各ドラフトトークンを小さなステップで並行して洗練し、対応するターゲット系列を形成する。
ドラフト軌道とターゲット軌道を比較してトークンを検証・受理し、必要に応じて最初に拒否されたトークンから再起動する。
トークン分割を導入して密なデノイジング軌道をチャンク単位で処理し、時間とともにマッチング閾値を緩和する漸進的受理戦略を採用する。

実験結果

リサーチクエスチョン

RQ1分散モデルを訓練せずに、拡散ベースのビデオ生成ポリシーに対して推定デコーディングの概念を適用できるか。
RQ2トークン分割と漸進的受理は、成功率を大幅に損なうことなく推論効率を改善するか。
RQ3DTSを用いて標準的なロボティクスベンチマークで得られる速度向上と精度のトレードオフは何か。

主な発見

DTSは3つのビデオ生成ポリシーベンチマークで最大2.1xの速度向上を達成する。
iThorでは、DTSは全体の成功率を29.15%に、平均実行時間を1.405sに改善し、AVDC-100の3.013sに対して2.14xの速度向上とSRの+2.05ポイントを達成する。
Meta-Worldでは、DTSは41.2–42.4%のSRを達成し、タスク全体で顕著な速度向上（例：約1.35x–1.60x）を示しつつ、DDIM-100の結果とほぼ一致する。
Liberoでは、DTSは約1.6x–2.0xの速度向上を実現し、チャンク長にわたって堅牢な性能と小さなSR変化を示す。
トークン分割（最適長さは6）は、ベンチマーク全体で安定したまたは改善された成功率とともに強力な速度向上を一貫して提供する。
漸進的受理は厳密なトークンマッチング制約を緩和し、推論効率を高めつつポリシー性能の大きな低下を招かない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。