[論文レビュー] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
本論文は Diffusion Policy を導入し、条件付き denoising diffusion process として表現される visuomotor policy を提示し、複数のロボット操作タスクで強力な実証的利得を示す。Langevin dynamics による action-score gradient 学習を用い、recurring-horizon control、視覚条件付け、time-series diffusion transformer を特徴とする。
This paper introduces Diffusion Policy, a new way of generating robot behavior by representing a robot's visuomotor policy as a conditional denoising diffusion process. We benchmark Diffusion Policy across 12 different tasks from 4 different robot manipulation benchmarks and find that it consistently outperforms existing state-of-the-art robot learning methods with an average improvement of 46.9%. Diffusion Policy learns the gradient of the action-distribution score function and iteratively optimizes with respect to this gradient field during inference via a series of stochastic Langevin dynamics steps. We find that the diffusion formulation yields powerful advantages when used for robot policies, including gracefully handling multimodal action distributions, being suitable for high-dimensional action spaces, and exhibiting impressive training stability. To fully unlock the potential of diffusion models for visuomotor policy learning on physical robots, this paper presents a set of key technical contributions including the incorporation of receding horizon control, visual conditioning, and the time-series diffusion transformer. We hope this work will help motivate a new generation of policy learning techniques that are able to leverage the powerful generative modeling capabilities of diffusion models. Code, data, and training details is publicly available diffusion-policy.cs.columbia.edu
研究の動機と目的
- 堅牢な visuomotor ポリシーを学習させ、モーダル性が高く高次元のアクション分布をモデル化できるよう動機づける。
- 視覚観測を条件として高次元のアクション系列を出力する diffusion-based policy を開発する。
- recurring-horizon planning、視覚条件付け、time-series diffusion transformer などの手法で現実世界のロボット制御を強化する。
- 複数のベンチマークにわたり state-of-the-art baselines を一貫して上回る性能を示す。
提案手法
- visuomotor ポリシーを actions に対する条件付き denoising diffusion process として表現する。
- action-distribution score function の勾配を学習し、推論時に Stochastic Langevin Dynamics を適用する。
- p(A|O) をモデリングし、K 個の denoising ステップでアクション系列を予測するために diffusion を視覚観測で条件付けする。
- 閉ループで再計画する再発ホライゾン制御を組み込み、アクション系列を生成する。
- 過剰平滑化を緩和し高周波のアクション変化を扱うために time-series diffusion transformer を用いる。
- CNN あるいは transformer バックボーン、FiLM 条件付け、DDIM を用いて推論を高速化する。
実験結果
リサーチクエスチョン
- RQ1拡散ベースのポリシーは visuomotor 制御タスクにおいてモーダルなアクション分布を表現できるか。
- RQ2拡散ポリシーは現実世界のロボット操作のための高次元アクション系列の学習でロバスト性と安定性を向上させるか。
- RQ3拡散ベースの visuomotor 学習を最も支えるアーキテクチャ選択(CNN vs Transformer)と条件付け戦略はどれか。
- RQ4リアルタイム実行時の latency および receding-horizon control で拡散ポリシーはどう動作するか。
- RQ5視覚条件付けはリアルタイムの visuomotor 推論に有効かつ計算効率が良いか。
主な発見
- Diffusion Policy は 12 タスクを c 4 ベンチマークで一貫して state-of-the-art baselines を上回り、平均 46.9% の改善を達成。
- action-score gradient と Langevin sampling を通じてモーダルなアクション分布を表現でき、モーダル性と時間的一貫性に対処。
- 位置制御アクション空間はこれらのタスクにおける diffusion policies の性能を速度制御空間よりも高くする。
- 拡散モデルによるアクション系列予測は時間的一貫性と idle アクションや長期計画への頑健性を向上。
- receding-horizon control 設定と time-series diffusion transformer によりリアルタイム推論と高周波のアクション変化を実現し、訓練は安定。
- 訓練の安定性は拡散ベースのポリシーが implicit energy-based models や他の baselines より高く、ハイパーパラメータ感度を低減。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。