[论文解读] Causal Reinforcement Learning using Observational and Interventional Data
本文提出了一种因果强化学习框架,通过整合观测数据(来自具有隐藏信息的智能体)和干预数据(来自学习智能体自身的交互),提升部分可观察马尔可夫决策过程(POMDPs)中的策略学习。通过使用潜变量因果转移模型建模环境,并应用 do-计算进行去混杂,该方法实现了正确且高效的泛化,具备理论保证,并在合成任务上得到实证验证。
Learning efficiently a causal model of the environment is a key challenge of model-based RL agents operating in POMDPs. We consider here a scenario where the learning agent has the ability to collect online experiences through direct interactions with the environment (interventional data), but has also access to a large collection of offline experiences, obtained by observing another agent interacting with the environment (observational data). A key ingredient, that makes this situation non-trivial, is that we allow the observed agent to interact with the environment based on hidden information, which is not observed by the learning agent. We then ask the following questions: can the online and offline experiences be safely combined for learning a causal model ? And can we expect the offline experiences to improve the agent's performances ? To answer these questions, we import ideas from the well-established causal framework of do-calculus, and we express model-based reinforcement learning as a causal inference problem. Then, we propose a general yet simple methodology for leveraging offline data during learning. In a nutshell, the method relies on learning a latent-based causal transition model that explains both the interventional and observational regimes, and then using the recovered latent variable to infer the standard POMDP transition model via deconfounding. We prove our method is correct and efficient in the sense that it attains better generalization guarantees due to the offline data (in the asymptotic case), and we illustrate its effectiveness empirically on synthetic toy problems. Our contribution aims at bridging the gap between the fields of reinforcement learning and causality.
研究动机与目标
- 解决在部分可观察马尔可夫决策过程(POMDPs)中,结合观测数据与干预数据的挑战,其中观测智能体使用隐藏信息。
- 在不访问隐藏变量的情况下,克服观测数据中的混杂问题——即观测行为与未观测变量相关。
- 开发一种系统性方法,安全地利用离线数据以提升在线强化学习中的样本效率与泛化能力。
- 通过使用 do-计算将因果性与强化学习相连接,将基于模型的强化学习形式化为因果推断问题。
- 证明即使观测数据受隐藏变量混杂,离线数据仍能提升渐近性能。
提出的方法
- 使用 do-计算将基于模型的强化学习形式化为因果推断问题,以区分观测与干预情形。
- 引入一个潜变量因果转移模型,联合解释干预与观测数据,捕捉未观测的混杂因子。
- 利用恢复的潜变量对观测数据进行去混杂,实现对标准 POMDP 转移模型的无偏估计。
- 应用 do-计算推导出在混合数据源下可识别因果效应的条件。
- 实现一种实用的训练流程,根据样本可用性动态平衡在线与离线数据的影响。
- 利用潜变量模型推断反事实结果并指导策略学习,确保对观测数据中混杂的鲁棒性。
实验结果
研究问题
- RQ1在 POMDP 中,能否安全地将具有隐藏信息的智能体的观测数据与在线干预数据结合?
- RQ2在什么条件下,受混杂的观测数据能提升基于模型的强化学习中的泛化能力?
- RQ3如何使用 do-计算来正式推理在混合数据情境下因果效应的可识别性?
- RQ4与仅使用在线数据相比,利用离线数据是否能带来更好的渐近性能?
- RQ5潜变量模型能否有效对观测数据去混杂,并在存在隐藏混杂因子的情况下提升策略学习?
主要发现
- 所提出的方法即使在观测数据受未观测变量混杂的情况下,仍能实现正确的因果推断,其形式化基于 do-计算。
- 理论分析证明,当同时使用观测与干预数据时,该方法在渐近状态下具备更优的泛化保证。
- 在合成小规模任务上的实证结果表明,与仅使用在线数据相比,该方法显著提升了样本效率与策略性能。
- 潜变量模型成功对观测数据进行了去混杂,实现了对真实 POMDP 转移动态的准确估计。
- 与将观测数据视为干预生成的朴素基线相比,该方法在强混杂条件下表现更优。
- 该方法对离线数据量的变化具有鲁棒性,并能根据其信息量动态调整离线数据的贡献。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。