Skip to main content
QUICK REVIEW

[論文レビュー] CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning

Xiaofeng Xiao, Xiao Hu|arXiv (Cornell University)|Feb 9, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

因果GDPは拡散ベースの強化学習にリアルタイムの因果推論を組み込み、将来の状態と報酬に因果的に影響を与える行動成分にポリシー生成を集中させる。オフラインの因果発見とオンライン適応を用いる。

ABSTRACT

Reinforcement learning (RL) has achieved remarkable success in a wide range of sequential decision-making problems. Recent diffusion-based policies further improve RL by modeling complex, high-dimensional action distributions. However, existing diffusion policies primarily rely on statistical associations and fail to explicitly account for causal relationships among states, actions, and rewards, limiting their ability to identify which action components truly cause high returns. In this paper, we propose Causality-guided Diffusion Policy (CausalGDP), a unified framework that integrates causal reasoning into diffusion-based RL. CausalGDP first learns a base diffusion policy and an initial causal dynamical model from offline data, capturing causal dependencies among states, actions, and rewards. During real-time interaction, the causal information is continuously updated and incorporated as a guidance signal to steer the diffusion process toward actions that causally influence future states and rewards. By explicitly considering causality beyond association, CausalGDP focuses policy optimization on action components that genuinely drive performance improvements. Experimental results demonstrate that CausalGDP consistently achieves competitive or superior performance over state-of-the-art diffusion-based and offline RL methods, especially in complex, high-dimensional control tasks.

研究の動機と目的

  • 因果性を拡散ベースのRLへ統合し、 causal な行動成分と単なる関連を区別する動機づけ。
  • 二段階のフレームワーク(オフライン因果モデリングとリアルタイム因果ガイダンス)を開発し、介入を用いて拡散ポリシーを誘導する。
  • さまざまな拡散ポリシーアーキテクチャに適用可能なモデル非依存の因果ガイダンス機構を提供する。

提案手法

  • オフラインデータから基盤となる拡散ポリシーと初期の因果ダイナミックモデルを学習する。
  • 因果発見(NOTEARSなど)を用いて連続的な因果マスクを構築し、状態-行動-報酬の依存関係をエンコードする。
  • マスクを用いたガウスパラメータ化で s_{t+1} および r_t の因果ダイナミックモデルを定義する。
  • リアルタイムで因果マスクを更新し、do(a_t)介入を介して因果ガイダンスを拡散デノイジング過程に組み込む。
  • 因果勾配項を用いた拡散スコアの修正により、因果性ガイド付きノイズ予測 ε_θ^{cg} を生成する。
  • 拡散目的関数を Q ネットワークベースのアクター目的(ダブルQ学習)と組み合わせてポリシーを訓練する。
Figure 1 : Causality and Association illustration
Figure 1 : Causality and Association illustration

実験結果

リサーチクエスチョン

  • RQ1データからMDP内の因果関係を特定し、行動選択に影響を与えるにはどうすればよいか。
  • RQ2リアルタイムの因果ガイダンスは、関連付けベースのガイダンスと比較して拡散ベースのRLポリシーを改善できるか。
  • RQ3提案する因果ガイダンスフレームワークはモデルに依存せず、拡散ポリシーアーキテクチャ全体でスケーラブルか。
  • RQ4do(a_t)による行動への介入を取り入れることで、高次元タスクで収束が速くなり報酬が改善されるか。

主な発見

  • CausalGDPは、複雑なタスクで最先端の拡散ベースおよびオフラインRL手法と比較して一貫して競争力があるか、または優れている。
  • フレームワークはリアルタイムの因果更新をガイダンス信号として統合し、拡散ポリシーのアーキテクチャ特有の変更を必要としない。
  • 因果発見から導かれた因果マスクは解釈可能な依存関係を符号化し、因果的に有効な方向へ行動生成をバイアス付けする。
  • 本手法はガウシアン拡散モデルや標準のTD-Q学習目的と互換性を保つ。
  • オフラインの因果モデリングは事前知識を提供し、オンラインで精練されてポリシー訓練を accelerate する。
(a) Halfcheetah
(a) Halfcheetah

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。