Skip to main content
QUICK REVIEW

[论文解读] backShift: Learning causal cyclic graphs from unknown shift interventions

Dominik Rothenhaüsler, Christina Heinze|arXiv (Cornell University)|Jun 8, 2015
Bayesian Modeling and Causal Inference参考文献 24被引用 28
一句话总结

backShift 提出了一种从平衡数据中学习线性因果循环图的方法,适用于未知的干预偏移,仅使用二阶矩和协方差差值的联合矩阵对角化。当至少存在三个实验设置(包括一个观察性设置)时,该方法提供了完全可识别性的充分必要条件,从而在无需事先知晓干预位置或强度的情况下,恢复因果结构与干预目标。

ABSTRACT

We propose a simple method to learn linear causal cyclic models in the presence of latent variables. The method relies on equilibrium data of the model recorded under a specific kind of interventions ("shift interventions"). The location and strength of these interventions do not have to be known and can be estimated from the data. Our method, called backShift, only uses second moments of the data and performs simple joint matrix diagonalization, applied to differences between covariance matrices. We give a sufficient and necessary condition for identifiability of the system, which is fulfilled almost surely under some quite general assumptions if and only if there are at least three distinct experimental settings, one of which can be pure observational data. We demonstrate the performance on some simulated data and applications in flow cytometry and financial time series. The code is made available as R-package backShift.

研究动机与目标

  • 开发一种从平衡数据中学习具有潜变量的线性因果循环模型的方法,适用于未知的偏移干预。
  • 识别在何种条件下,因果结构与干预目标可从观察数据和干预数据中唯一恢复。
  • 在不事先知晓干预位置或大小的情况下,实现对连接矩阵和干预强度的估计。
  • 提供一种基于二阶统计量和联合矩阵对角化的计算高效方法,避免复杂的优化或分布假设。

提出的方法

  • 该方法利用多个实验环境中协方差矩阵之间的差异来估计干预效应。
  • 通过协方差矩阵差异的联合矩阵对角化,恢复干预目标与连接结构。
  • 该方法仅依赖二阶矩,计算效率高,最坏情况下的时间复杂度为变量数的立方级。
  • 假设干预为偏移型,即仅改变变量的均值而不改变误差结构,其在结构方程模型中被建模为加法偏移。
  • 通过检测协方差矩阵差异中与偏移干预效应一致的模式,识别干预目标。
  • 通过基于连接矩阵的循环积严格小于1的充分必要条件,建立可识别性。

实验结果

研究问题

  • RQ1我们能否从未知偏移干预下收集的数据中识别线性循环模型的因果结构?
  • RQ2在何种条件下,连接矩阵与干预目标可从多个环境中完全可识别?
  • RQ3是否可能在不事先知晓干预目标的情况下,估计因果图及干预的位置/强度?
  • RQ4当因果结构中存在潜在国内混杂因素和反馈回路时,该方法表现如何?
  • RQ5该方法能否应用于具有时变干预的真实世界数据,如金融时间序列或生物信号网络?

主要发现

  • 在一般条件下,当至少存在三个不同的实验设置(其中一个为纯观察性设置)时,该方法可实现因果结构的完全可识别。
  • 为实现可识别性,连接矩阵的循环积必须严格小于1,这确保了系统稳定性并避免了发散动力学。
  • 在流式细胞术数据中,backShift 成功恢复了已知的反馈回路(例如 PIP2 ↔ PLCg 和 PKC ↔ JNK),与先前研究相比仅出现五个方向错误的边和三个新增边。
  • 在金融时间序列中,backShift 正确识别了三次重大市场崩盘的起因:2001 年科技股(NASDAQ)崩盘、2008 年美国股票(S&P 500)崩盘和 2011 年欧洲股票(DAX)崩盘。
  • 结合稳定性选择的 backShift 实现了期望错误发现数 E(V) = 2,从而得到更稀疏且更可靠的网络估计。
  • 该方法通过识别估计干预矩阵中较大的非对角线元素来检测机制违背,表明存在非偏移型干预,这在七种流式细胞术环境中的四组干预目标处被观察到。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。