QUICK REVIEW

[論文レビュー] AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners

Zhixuan Liang, Yao Mu|arXiv (Cornell University)|Feb 3, 2023

Reinforcement Learning in Robotics被引用数 8

ひとこと要約

AdaptDiffuserは報酬ガイド付きの拡散をディスクリミネータベースデータフィルタリングループと組み合わせて拡散プランナーを自己進化させ、見たTaskでの性能を向上させ、追加の専門家データなしで未 seen Taskへ一般化する。

ABSTRACT

Diffusion models have demonstrated their powerful generative capability in many tasks, with great potential to serve as a paradigm for offline reinforcement learning. However, the quality of the diffusion model is limited by the insufficient diversity of training data, which hinders the performance of planning and the generalizability to new tasks. This paper introduces AdaptDiffuser, an evolutionary planning method with diffusion that can self-evolve to improve the diffusion model hence a better planner, not only for seen tasks but can also adapt to unseen tasks. AdaptDiffuser enables the generation of rich synthetic expert data for goal-conditioned tasks using guidance from reward gradients. It then selects high-quality data via a discriminator to finetune the diffusion model, which improves the generalization ability to unseen tasks. Empirical experiments on two benchmark environments and two carefully designed unseen tasks in KUKA industrial robot arm and Maze2D environments demonstrate the effectiveness of AdaptDiffuser. For example, AdaptDiffuser not only outperforms the previous art Diffuser by 20.8% on Maze2D and 7.5% on MuJoCo locomotion, but also adapts better to new tasks, e.g., KUKA pick-and-place, by 27.9% without requiring additional expert data. More visualization results and demo videos could be found on our project page.

研究の動機と目的

オフラインRLデータの多様性不足が拡散ベースプランナーに与える影響を動機づけ、対処する。
報酬勾配に導かれた合成デモンストレーションを生成し、データ品質をディスクリミネータベース選択ループでフィルタして自己進化する拡散フレームワークを提案する。
追加の専門家データなしでデータ駆動のファインチューニングを通じて未 seen Taskへのゼロショット適応を可能にする。
Maze2D、MuJoCoロコモーション、およびKUKA/Maze2D unseen Taskで性能の改善を示す。

提案手法

報酬to-goまたはタスク制約からのガイダンスを持つ条件付き拡散過程としてのモデリング（式7–8）。
報酬ガイド付き拡散を用いて合成デモンストレーションを生成し、データプールとしてのディスクリミネータベース選択ループでデータ品質を洗練させる。
逆ダイナミクスモデルを用いた実行可能な行動を回復し状態予測可能性でフィルタリングして動的実現性を保証する（式9）。
高品質な合成データを用いて前方拡散モデルを反復的にファインチューニングし、自己進化のためのμθとΣを改善する（式10）。
連続報酬と疎な報酬を扱うため、タスク制約と補助報酬を含む適切な報酬ガイド付き目的を定義する（式11）。
Maze2D、MuJoCo D4RLベンチマーク、およびKUKAのピックアンドプレース/未 seen Taskを評価し、性能改善とゼロショット適応を示す。

実験結果

リサーチクエスチョン

RQ1報酬ガイド付き拡散はオフラインRLタスクの多様な合成デモンストレーションを生成できるか。
RQ2ディスクリミネータベースベースのデータ選択ループは拡散モデルのプランニング品質と未 seen Taskへの頑健性を向上させるか。
RQ3自己進化型拡散プランナーは追加の専門家データなしで未 seen目的へ一般化できるか。
RQ4AdaptDiffuserは標準ベンチマークおよび新規タスクでDiffuserや他のオフラインRLベースラインと比較してどの程度性能を発揮するか。

主な発見

Environment	MPPI	CQL	IQL	Diffuser	AdaptDiffuser
U-Maze	33.2	5.7	47.4	113.9	135.1 ± 5.8
Medium	10.2	5.0	34.9	121.5	129.9 ± 4.6
Large	5.1	12.5	58.6	123.0	167.9 ± 5.0
Average	16.2	7.7	47.0	119.5	144.3

AdaptDiffuserはMaze2Dの性能をDiffuserより約20.8%向上させ、MuJoCoロコモーションでは約7.5%向上。
MuJoCo実験では、複数データセットでDiffuserおよびいくつかのベースラインよりも平均リターンが高く、特にHopper-MediumとWalker2d-Mediumで顕著。
AdaptDiffuserは未 seen Task（例：KUKAのピックアンドプレース）へのゼロショット適応を実証し、Diffuser比で平均約5–6ポイント程度の改善など substantial gains。
可視化の結果、Diffuserが失敗したり衝突を生む hard Maze2Dケースにおいても、適合し滑らかな経路を生成する。
Maze2DとMuJoCoのベンチマーク全体で、AdaptDiffuserは一貫して基準のDiffuserを上回り、自己ブートストラップと一般化の改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。