QUICK REVIEW

[論文レビュー] Planning with Diffusion for Flexible Behavior Synthesis

Michael Jänner, Yilun Du|arXiv (Cornell University)|May 20, 2022

Reinforcement Learning in Robotics被引用数 60

ひとこと要約

本論文は、Diffuserという拡散ベースのモデルを提案します。全軌道を反復的にデノイズして計画を行い、長期的な計画、タスクの組み合わせ性、そして従来の自己回帰ダイナミクスモデルに依存しないテスト時の柔軟性を実現します。

ABSTRACT

Model-based reinforcement learning methods often use learning only for the purpose of estimating an approximate dynamics model, offloading the rest of the decision-making work to classical trajectory optimizers. While conceptually simple, this combination has a number of empirical shortcomings, suggesting that learned models may not be well-suited to standard trajectory optimization. In this paper, we consider what it would look like to fold as much of the trajectory optimization pipeline as possible into the modeling problem, such that sampling from the model and planning with it become nearly identical. The core of our technical approach lies in a diffusion probabilistic model that plans by iteratively denoising trajectories. We show how classifier-guided sampling and image inpainting can be reinterpreted as coherent planning strategies, explore the unusual and useful properties of diffusion-based planning methods, and demonstrate the effectiveness of our framework in control settings that emphasize long-horizon decision-making and test-time flexibility.

研究の動機と目的

学習と計画の結合をより密に促進するため、計画に適した性質を本質的に備えたモデルを設計する。
計画のために、すべての時刻を自己回帰的に予測せず非自己回帰で予測する軌跡拡散モデルを開発する。
拡散サンプリング中に報酬や制約といったガイダンス関数を介して、計画の柔軟な条件付けを可能にする。
オフラインおよびオンラインタスク全体で、長期的計画、新しい目標への一般化、そしてテスト時の柔軟性を示す。

提案手法

Diffuserを導入します。時刻ごとに並列で軌跡をデノイズする軌跡レベルの拡散確率モデル。
軌跡を状態と行動の2D配列として表現し、局所的な時間的局在性を可能にするために時系列畳み込みブロックを用いる。
ノイズターゲット上の単純なL2目的関数でデノイズステップepsilon_thetaを予測するようにモデルを学習する。
摂動関数h(tau)を用いて高報酬または制約を満たす軌跡へサンプリングをバiasする（推論としての計画）。
強化学習の文脈で、累積報酬J(mu)の勾配を導出して拡散サンプリングを導く（分類器ガイド付きサンプリングのアナログ）。
任意で、軌跡の観測部分（開始状態、目標、または制約）を条件付けることにより、制約の充足をインペインティングとして扱う。

実験結果

リサーチクエスチョン

RQ1非自己回帰拡散モデルは、制御タスクの長期的な軌跡計画を信頼性高く実現できるか。
RQ2拡散ベースの計画は、新しい目標や未見の報酬構造へ retraining なしに一般化できるか。
RQ3条件付け/指向サンプリング（報酬または制約）は計画の品質と実現可能性にどのように影響するか。
RQ4新しい目的へ向けた計画を導く摂動を組み合わせることで、テスト時の柔軟性を実現できるか。

主な発見

Environment	MPPI	CQL	IQL	Diffuser
Maze2D U-Maze	33.2	5.7	47.4	113.9 ± 3.1
Maze2D Medium	10.2	5.0	34.9	121.5 ± 2.7
Maze2D Large	5.1	12.5	58.6	123.0 ± 6.4
Single-task Average	16.2	7.7	47.0	119.5
Multi2D U-Maze	41.2	-	24.8	128.9 ± 1.8
Multi2D Medium	15.4	-	12.1	127.2 ± 3.4
Multi2D Large	8.0	-	13.9	132.1 ± 5.8
Multi-task Average	21.5	-	16.9	129.4

Diffuserは、スパース報酬環境で長期的な計画を可能にし、Maze2Dタスクでモデルフリーベースラインを上回る。
モデルは時間的組成性を示し、 subsequences をつなぎ合わせて新しい計画を形成できる。
計画の horizon は入力ノイズによって決まり、アーキテクチャではなく、柔軟な計画長を可能にする。
Diffuserはタスクの組成性をサポートし、新しい報酬関数を再学習なしに計画に導くことができる。
オフライン RL ベンチマークで競争力のある結果を達成し、異種データから効果的なコントローラを回復できる。
ガイド付きサンプリングとインペインティングは、ゴール条件付きおよび制約充足の計画行動を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。