Skip to main content
QUICK REVIEW

[论文解读] Causal Inference by Identification of Vector Autoregressive Processes with Hidden Components

Philipp Geiger, Kun Zhang|arXiv (Cornell University)|Nov 14, 2014
Bayesian Modeling and Causal Inference参考文献 18被引用 44
一句话总结

本文提出了一种新颖的时间序列因果推断方法,通过识别带隐藏分量的向量自回归(VAR)过程的结构参数。研究表明,在非高斯噪声或观测变量对隐藏变量无影响的条件下,因果矩阵B和混淆因子效应C可仅从观测数据中识别,从而实现比标准Granger方法更可靠的因果发现。

ABSTRACT

A widely applied approach to causal inference from a non-experimental time series $X$, often referred to as "(linear) Granger causal analysis", is to regress present on past and interpret the regression matrix $\hat{B}$ causally. However, if there is an unmeasured time series $Z$ that influences $X$, then this approach can lead to wrong causal conclusions, i.e., distinct from those one would draw if one had additional information such as $Z$. In this paper we take a different approach: We assume that $X$ together with some hidden $Z$ forms a first order vector autoregressive (VAR) process with transition matrix $A$, and argue why it is more valid to interpret $A$ causally instead of $\hat{B}$. Then we examine under which conditions the most important parts of $A$ are identifiable or almost identifiable from only $X$. Essentially, sufficient conditions are (1) non-Gaussian, independent noise or (2) no influence from $X$ to $Z$. We present two estimation algorithms that are tailored towards conditions (1) and (2), respectively, and evaluate them on synthetic and real-world data. We discuss how to check the model using $X$.

研究动机与目标

  • 为解决标准Granger因果关系的局限性,即当未测量的混淆因子(Z)影响观测变量(X)时该方法失效。
  • 建立仅从观测X中识别带隐藏分量的VAR模型因果结构的条件。
  • 开发适用于非高斯噪声及X对Z无影响情形的估计算法,实现实际因果推断。
  • 提供一种仅使用观测时间序列X来检验模型有效性的框架。

提出的方法

  • 将观测X与隐藏Z的联合动态建模为具有独立同分布噪声的一阶VAR过程,假设转移矩阵A具有因果解释。
  • 利用噪声的非高斯性与独立性,识别B与C至缩放与排列的不确定性,借助独立性与非高斯性实现结构识别。
  • 在算法1中采用高斯混合似然模型,基于非高斯噪声假设,从有限样本中估计B与C。
  • 在算法2中采用类似Yule-Walker的方程组,当X不影响Z时,将B估计至有限多个可能性。
  • 使用卡尔曼滤波与平滑计算隐藏状态的后验分布,支持变分EM进行参数估计。
  • 在EM框架中,基于后验期望与变分下界,推导参数(π, μ, σ², B, C, D, E)的更新规则。

实验结果

研究问题

  • RQ1在何种条件下,可仅从观测时间序列X中识别带隐藏分量的VAR模型中的因果矩阵B?
  • RQ2当噪声为非高斯且独立时,能否识别混淆因子效应C?
  • RQ3当X对Z无直接影响时,即使在高斯噪声下,因果结构如何恢复?
  • RQ4在多大程度上可仅使用观测时间序列X来验证模型假设?
  • RQ5与标准Granger因果关系相比,所提出的算法在合成与真实世界时间序列数据上的表现如何?

主要发现

  • 定理1表明,在满足通用性假设下,若噪声为非高斯且独立,则B可从X中唯一识别。
  • 定理2表明,在相同非高斯噪声条件下,C中至少有两个非零元素的列可至缩放与排列的不确定性下被识别。
  • 定理3证明,若X不影响Z,则无论噪声分布如何,B均可从X的协方差结构中识别至有限多个可能性。
  • 命题1与2确认,所需通用性假设仅排除参数空间中的勒贝格零测集,因此在实践中具有有效性。
  • 算法1通过最大化高斯混合噪声的似然模型,成功估计B与C,在非高斯性下表现有效。
  • 算法2通过求解类似Yule-Walker方程的方程组,在X对Z无影响条件下,将B恢复至有限多个解。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。