Skip to main content
QUICK REVIEW

[论文解读] Causal Generative Neural Networks

Olivier Goudet, Diviyan Kalainathan|arXiv (Cornell University)|Nov 24, 2017
Bayesian Modeling and Causal Inference参考文献 36被引用 23
一句话总结

本文提出因果生成神经网络(CGNNs),一种可微分的深度生成模型,通过最小化真实数据与生成数据之间的最大均值差异(MMD),从观测数据中学习功能因果模型。CGNNs 能够发现二元及多元因果结构,处理隐性混杂因素,并生成完整的生成模型以支持干预模拟,在真实与合成数据上的因果推断、V-结构识别及多元因果发现任务中达到最先进性能。

ABSTRACT

We present Causal Generative Neural Networks (CGNNs) to learn functional causal models from observational data. CGNNs leverage conditional independencies and distributional asymmetries to discover bivariate and multivariate causal structures. CGNNs make no assumption regarding the lack of confounders, and learn a differentiable generative model of the data by using backpropagation. Extensive experiments show their good performances comparatively to the state of the art in observational causal discovery on both simulated and real data, with respect to cause-effect inference, v-structure identification, and multivariate causal discovery.

研究动机与目标

  • 开发一种可微分、端到端可训练的观测因果发现框架,将深度生成建模与因果结构学习相结合。
  • 实现从观测数据中发现二元及多元因果结构(包括V-结构与混杂关系),而无需假设加性噪声或线性关系。
  • 生成联合分布的完整生成模型,以支持干预估计,这与许多先前的因果发现方法不同。
  • 提高对骨架错误与隐性混杂因素的鲁棒性,这些因素常导致基于约束的方法与成对方法失效。
  • 提供一种可扩展的、与深度学习兼容的方法,支持需要模拟干预分布的下游应用。

提出的方法

  • CGNNs 使用通过反向传播训练的深度生成网络建模联合分布,以最小化观测数据分布与生成数据分布之间的最大均值差异(MMD)。
  • 该架构基于功能因果模型(FCMs),其中每个变量由其父节点和一个独立的噪声变量生成,因果图结构通过网络连接性编码。
  • 该方法在统一的可微分框架内同时利用分布不对称性(用于因果对识别)与条件独立性(用于V-结构与骨架发现)。
  • CGNNs 使用基于高斯核的可微分损失函数,基于MMD,支持基于梯度的优化与端到端训练。
  • 模型在重建观测数据分布的同时学习潜在因果图,通过学习的生成过程为边分配置信度分数。
  • 该方法通过在采样过程中对变量施加特定值,支持干预,从而实现do-演算干预的模拟。

实验结果

研究问题

  • RQ1是否可以端到端训练一个深度生成模型,从观测数据中发现因果结构,同时保持可微分性与可扩展性?
  • RQ2基于神经网络的方法在存在隐性混杂因素的情况下,能否有效结合分布不对称性与条件独立性进行因果发现?
  • RQ3CGNNs 是否能在合成与真实世界数据集上,于因果推断、V-结构识别与多元因果发现任务中超越最先进方法?
  • RQ4CGNNs 的可微分性在多大程度上支持其与深度学习流水线的集成,并支持干预模拟?
  • RQ5与现有算法相比,CGNNs 在骨架错误与未观测混杂因素存在的情况下,其鲁棒性如何?

主要发现

  • 在存在隐性混杂因素的因果发现任务中,CGNN 的 AUPRC 达到 0.71* (0.13),显著优于 RFCI-HSIC (0.41) 与 Jarfo (0.54),AUPRC 与 SHD 的 p 值均小于 0.01。
  • 在含 100 个变量的合成数据上,CGNN 在四块 NVIDIA 1080Ti GPU 上运行 30 小时内达到 AUPRC 85.5 ± 4.0,展现出良好的可扩展性。
  • 在 Sachs 蛋白质网络数据集上,CGNN 有效恢复了 raf → mek → erk 信号通路,对正确方向的边赋予高置信度,对错误方向的边则赋予低置信度。
  • CGNN 对骨架中的虚假边表现出鲁棒性,优于基于约束的方法(如 PC-HSIC),其高性能得益于对分布不对称性与条件独立性的混合使用。
  • CGNN 生成了完整的生成模型,支持干预模拟,而 Jarfo 与 PC-HSIC 等方法仅输出因果图。
  • 该方法能有效去除由混杂引起的虚假边,对由未观测共同原因导致的虚假边赋予低置信度,同时对真实因果边保持高置信度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。