QUICK REVIEW

[论文解读] Deconfounding Reinforcement Learning in Observational Settings

Chaochao Lu, Bernhard Schölkopf|arXiv (Cornell University)|Dec 26, 2018

Reinforcement Learning in Robotics参考文献 33被引用 34

一句话总结

本文提出去混淆强化学习（DRL），一种将因果推断与演员-评论家强化学习相结合的框架，以解决在存在未观测混杂因素的观察数据中进行策略学习的问题。通过使用变分推断建模潜在混杂因素并调整其影响，DRL 改进了策略优化，在基于合成数据和 MNIST 的新基准测试中，相较于标准强化学习方法在混杂环境中表现出更优性能。

ABSTRACT

We propose a general formulation for addressing reinforcement learning (RL) problems in settings with observational data. That is, we consider the problem of learning good policies solely from historical data in which unobserved factors (confounders) affect both observed actions and rewards. Our formulation allows us to extend a representative RL algorithm, the Actor-Critic method, to its deconfounding variant, with the methodology for this extension being easily applied to other RL algorithms. In addition to this, we develop a new benchmark for evaluating deconfounding RL algorithms by modifying the OpenAI Gym environments and the MNIST dataset. Using this benchmark, we demonstrate that the proposed algorithms are superior to traditional RL methods in confounded environments with observational data. To the best of our knowledge, this is the first time that confounders are taken into consideration for addressing full RL problems with observational data. Code is available at https://github.com/CausalRL/DRL.

研究动机与目标

解决在未观测混杂因素同时影响动作与奖励分布的观察设置下的强化学习问题。
将因果推断技术整合到完整的强化学习问题中，尤其适用于具有时变处理的序列决策问题。
开发一种考虑历史数据中潜在混杂因素的演员-评论家算法的去混淆变体。
通过修改的 OpenAI Gym 环境和 MNIST 构建新基准，用于评估去混淆强化学习算法。
证明在混杂的观察数据中，混杂因素调整可带来优于标准强化学习的策略性能。

提出的方法

提出一种通用的 DRL 框架，通过变分自编码器（VAE）建模潜在混杂因素，从观察数据中估计混杂因素的后验分布。
利用结构因果模型，在标准可忽略性与条件独立性假设下识别混杂因素对动作和奖励的影响。
应用 do-演算通过干预潜在混杂因素来调整混杂影响，实现无偏策略评估与学习。
通过引入去混淆的价值函数与策略梯度，扩展演员-评论家算法，以考虑估计的混杂因素影响。
采用变分推断联合估计潜在混杂因素与策略，实现在观察数据上的端到端训练。
在结合修改后的 Gym 环境与基于 MNIST 的控制任务（含合成混杂因素）的新基准上验证该方法。

实验结果

研究问题

RQ1当未观测混杂因素同时影响动作与奖励时，能否从观察数据中学习到最优策略？
RQ2如何将标准强化学习算法（如演员-评论家）适配于存在潜在混杂因素的观察设置？
RQ3与标准强化学习相比，混杂因素调整对策略性能的影响如何？
RQ4能否构建一个可靠的基准，用于评估序列决策任务中去混淆强化学习算法的性能？
RQ5与现有因果推断与强化学习方法相比，所提出的 DRL 框架在策略质量与鲁棒性方面表现如何？

主要发现

在新基准上，去混淆演员-评论家方法的平均测试阶段总奖励显著高于基线的演员-评论家与直接 AC 基线。
与基线演员-评论家相比，去混淆 AC 在超过 50% 的回合中选择了最优动作，而基线方法选择最优动作的次数不足一半。
所提出的基准成功揭示了标准强化学习因未观测混杂因素导致的性能下降，验证了去混淆方法的必要性。
该方法通过变分推断有效识别并调整潜在混杂因素，提升了在观察数据中的策略泛化能力。
结果表明，混杂因素调整可使现实场景（如医疗保健与金融）中的策略学习更加可靠与高效。
据作者所知，这是首个系统性地利用因果推断与观察数据解决完整强化学习问题中混杂因素问题的工作。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。