[논문 리뷰] CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning
CausalGDP는 확산 기반 강화 학습에 실시간 인과 추론을 통합하여 정책 생성을 미래 상태와 보상에 인과적으로 영향을 주는 행동 구성요소에 집중하며, 오프라인 인과 발견과 온라인 적응을 사용합니다.
Reinforcement learning (RL) has achieved remarkable success in a wide range of sequential decision-making problems. Recent diffusion-based policies further improve RL by modeling complex, high-dimensional action distributions. However, existing diffusion policies primarily rely on statistical associations and fail to explicitly account for causal relationships among states, actions, and rewards, limiting their ability to identify which action components truly cause high returns. In this paper, we propose Causality-guided Diffusion Policy (CausalGDP), a unified framework that integrates causal reasoning into diffusion-based RL. CausalGDP first learns a base diffusion policy and an initial causal dynamical model from offline data, capturing causal dependencies among states, actions, and rewards. During real-time interaction, the causal information is continuously updated and incorporated as a guidance signal to steer the diffusion process toward actions that causally influence future states and rewards. By explicitly considering causality beyond association, CausalGDP focuses policy optimization on action components that genuinely drive performance improvements. Experimental results demonstrate that CausalGDP consistently achieves competitive or superior performance over state-of-the-art diffusion-based and offline RL methods, especially in complex, high-dimensional control tasks.
연구 동기 및 목표
- 확률적 인과관계를 확산 기반 RL에 통합하여 인과적 행동 구성요소와 단순 연관성을 구분하도록 동기를 부여합니다.
- 인터벤션을 사용하여 확산 정책을 이끌기 위한 오프라인 인과 모델링과 실시간 인과 가이던스를 포함하는 두 단계 프레임워크를 개발합니다.
- 다양한 확산-정책 아키텍처에 적용 가능한 모델에 독립적인 인과 가이드 메커니즘을 제공합니다.
제안 방법
- 오프라인 데이터에서 기본 확산 정책과 초기 인과 동적 모델을 학습합니다.
- NOTEARS 등의 인과 발견을 통해 상태-행동-보상 의존성을 인코딩하는 연속적 인과 마스크를 구성합니다.
- 마스크를 이용해 Gaussian 매개변수화로 s_{t+1}와 r_t에 대한 인과 동적 모델을 정의합니다.
- 실시간으로 인과 마스크를 업데이트하고 do(a_t) 개입을 통해 확산 디노이징 프로세스에 인과 가이던스를 반영합니다.
- 인과 그래디언트 항을 추가하여 확산 점수를 수정하고 인과성 가이드 노이즈 예측 epsilon_theta^cg를 생성합니다.
- 확산 목표와 TD-Q 학습의 이중 Q-학습 기반 배우 목표를 결합하여 정책을 학습합니다.

실험 결과
연구 질문
- RQ1데이터로부터 MDP 내의 인과 관계를 식별하여 행동 선택에 영향을 주려면 어떻게 해야 합니까?
- RQ2실시간 인과 가이던스가 연관성 기반 가이던스와 비교해 확산 기반 RL 정책을 개선할 수 있습니까?
- RQ3제안된 인과 가이드 프레임워크가 모델에 독립적이며 확산 정책 아키텍처 전반에 걸쳐 확장 가능한가요?
- RQ4do(a_t) 개입을 통한 행동에 대한 개입을 도입하면 고차원 과제에서 수렴 속도 및 보상 측면에서 더 나은가요?
주요 결과
- CausalGDP는 복잡한 과제에서 최첨단 확산 기반 및 오프라인 RL 방법에 비해 일관되게 경쟁력 있거나 우수한 성능을 보입니다.
- 프레임워크는 확산 정책에 아키텍처 특화 변경 없이 실시간 인과 업데이트를 가이드 신호로 통합합니다.
- 인과 발견에서 도출된 인과 마스크는 해석 가능한 의존성을 인코딩하여 인과적으로 효과적인 방향으로 행동 생성을 편향시킵니다.
- 이 방법은 가우시안 확산 모델 및 표준 TD-Q 학습 목표와도 호환됩니다.
- 오프라인 인과 모델링은 온라인으로 정제되어 정책 학습을 가속하는 사전지식을 제공합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.