Skip to main content
QUICK REVIEW

[論文レビュー] Imitating Human Behaviour with Diffusion Models

Tim Pearce, Tabish Rashid|arXiv (Cornell University)|Jan 25, 2023
Human Motion and Animation被引用数 23
ひとこと要約

Diffusion models are used to imitate human behavior in sequential environments by learning the full joint distribution over actions conditioned on observations, outperforming traditional behavior cloning baselines in robotic control and video game tasks. The paper also analyzes architectures, guidance, and sampling strategies for reliable sequential imitation.

ABSTRACT

Diffusion models have emerged as powerful generative models in the text-to-image domain. This paper studies their application as observation-to-action models for imitating human behaviour in sequential environments. Human behaviour is stochastic and multimodal, with structured correlations between action dimensions. Meanwhile, standard modelling choices in behaviour cloning are limited in their expressiveness and may introduce bias into the cloned policy. We begin by pointing out the limitations of these choices. We then propose that diffusion models are an excellent fit for imitating human behaviour, since they learn an expressive distribution over the joint action space. We introduce several innovations to make diffusion models suitable for sequential environments; designing suitable architectures, investigating the role of guidance, and developing reliable sampling strategies. Experimentally, diffusion models closely match human demonstrations in a simulated robotic control task and a modern 3D gaming environment.

研究の動機と目的

  • 観測に条件づけられた人間の行動の完全で多峰性の分布を、単純なBC仮定に依らずモデル化する動機。
  • 拡散モデルが逐次環境における複雑な行動分布を正確に捉えられることを示す。
  • 拡散モデルを観察から行動へのタスクへ適用するためのアーキテクチャ、ガイダンス、サンプリングの革新を開発する。
  • ロボット制御と現代のビデオゲーム環境における拡散ベースのBCを評価し、強力なベースラインと比較する。

提案手法

  • 観察から行動へのタスクのために、ノイズ除去型拡散確率モデル(DDPM)を適用して p(a|o) を学習する。
  • 観測エンコーダと復号ネットワークを別々に用いた、アクションベクトル向けに特化したアーキテクチャ(Basic MLP、MLP Sieve、Transformer)の設計。
  • 分類子なしガイダンス(CFG)が逐次の観測から行動へのタスクで性能を低下させることを調査。
  • ロールアウト時に高尤度な行動を選択する信頼性の高いサンプリング方式(Diffusion-X、Diffusion-KDE)を導入。
  • タスク間で、拡散ベースのBCをMSE、Discretised、K-Means、K-Means+Residual、EBMベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1拡散モデルは、逐次環境において人間のデモンストレーションを模倣するために、p(a|o) の全ての条件付き分布を正確にモデル化できるか。
  • RQ2アーキテクチャの選択(MLP、MLP Sieve、Transformer)が拡散ベースのBCの性能にどう影響するか。
  • RQ3ガイダンス機構(CFG)が逐次模倣に与える影響。
  • RQ4信頼性の高いサンプリング方式(Diffusion-X、Diffusion-KDE)は、行動サンプリングの堅牢性と忠実度を向上させるか。
  • RQ5拡散ベースの手法は、ロボット制御とCS:GOにおける複雑な環境へのスケールに、強力なBCベースラインと比べてどうか。

主な発見

方法タスク ≥ 4 ↑タスクのワッサースタイン ↓時間のワッサースタイン ↓状態のワッサースタイン ↓密度 ↑カバレッジ ↑
Diffusion BC, Basic MLP0.45 ± 0.031.96 ± 0.1212.04 ± 2.200.463 ± 0.0120.54 ± 0.020.38 ± 0.01
Diffusion-KDE, Basic MLP0.59 ± 0.011.72 ± 0.038.08 ± 0.240.481 ± 0.0050.78 ± 0.000.37 ± 0.00
Diffusion-X, Basic MLP0.58 ± 0.021.51 ± 0.148.61 ± 0.140.424 ± 0.0170.64 ± 0.000.41 ± 0.00
MSE, MLP Sieve0.5 ± 0.021.91 ± 0.076.40 ± 0.480.443 ± 0.0210.71 ± 0.010.40 ± 0.01
Discretised, MLP Sieve0.18 ± 0.023.43 ± 0.1411.30 ± 1.290.651 ± 0.0260.38 ± 0.020.31 ± 0.01
K-Means, MLP Sieve0.0 ± 0.05.25 ± 0.01.469 ± 0.1200.09 ± 0.000.06 ± 0.00
K-Means+Residual, MLP Sieve0.23 ± 0.022.87 ± 0.1611.60 ± 2.110.607 ± 0.0270.51 ± 0.010.36 ± 0.00
EBM Deriv-Free, MLP Sieve0.0
Diffusion BC, MLP Sieve0.68 ± 0.021.31 ± 0.056.06 ± 1.100.373 ± 0.0120.66 ± 0.010.42 ± 0.00
Diffusion-KDE, MLP Sieve0.79 ± 0.041.6 ± 0.246.77 ± 0.640.439 ± 0.0390.93 ± 0.020.41 ± 0.01
Diffusion-X, MLP Sieve0.77 ± 0.021.06 ± 0.055.24 ± 0.900.344 ± 0.0040.78 ± 0.010.45 ± 0.00
MSE, Transformer0.69 ± 0.021.47 ± 0.135.85 ± 0.270.397 ± 0.0340.81 ± 0.010.42 ± 0.01
Discretised, Transformer0.34 ± 0.022.54 ± 0.146.13 ± 0.490.512 ± 0.0020.47 ± 0.010.36 ± 0.00
K-Means, Transformer0.05.251.4700.070.06
K-Means+Residual, Transformer0.34 ± 0.022.25 ± 0.167.80 ± 0.870.426 ± 0.0180.66 ± 0.020.38 ± 0.01
Diffusion BC, Transformer0.77 ± 0.011.35 ± 0.114.11 ± 0.050.340 ± 0.0030.74 ± 0.010.44 ± 0.00
Diffusion-KDE, Transformer0.89 ± 0.011.31 ± 0.035.28 ± 0.410.418 ± 0.0120.97 ± 0.020.43 ± 0.01
Diffusion-X, Transformer0.88 ± 0.011.17 ± 0.134.65 ± 0.470.365 ± 0.0130.94 ± 0.020.45 ± 0.01
  • 拡散ベースのBCは、タスク完了率や人間への分布的類似性を含む複数の指標で、ロボット制御タスクにおいてすべてのベースラインを上回る。
  • アーキテクチャの選択は重要:TransformerとMLP SieveはBasic MLPを上回る;Transformerは最も良い指標を示すがサンプリングが遅い。
  • 分類子なしガイダンス(CFG)は、逐次の観測から行動へのタスクにおける性能を低下させ、より珍しい軌道へのバイアスを高める。
  • サンプリング方式のDiffusion-XとDiffusion-KDEは、標準のDiffusion BCより信頼性と忠実度を向上させるが、KDEは多様性を低下させる可能性がある。
  • CS:GO風のビデオゲームタスクでは、Diffusion-Xが人間行動との最良のワッサースタイン距離を達成し、競争力のあるゲームスコアを得る一方、サンプリングレートは遅いが実行可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。