[论文解读] High-recall causal discovery for autocorrelated time series with latent confounders
提出 LPCMCI,一种针对存在潜在混杂变量的自相关时间序列的约束基因因果发现方法,在控制假阳性率的同时实现比 SVAR-FCI 更高的召回率。它通过对已知父节点进行默认条件设定并通过新颖的 LPCMCI-PAG 规则实现早期方向判断来增大效应量。
We present a new method for linear and nonlinear, lagged and contemporaneous constraint-based causal discovery from observational time series in the presence of latent confounders. We show that existing causal discovery methods such as FCI and variants suffer from low recall in the autocorrelated time series case and identify low effect size of conditional independence tests as the main reason. Information-theoretical arguments show that effect size can often be increased if causal parents are included in the conditioning sets. To identify parents early on, we suggest an iterative procedure that utilizes novel orientation rules to determine ancestral relationships already during the edge removal phase. We prove that the method is order-independent, and sound and complete in the oracle case. Extensive simulation studies for different numbers of variables, time lags, sample sizes, and further cases demonstrate that our method indeed achieves much higher recall than existing methods for the case of autocorrelated continuous variables while keeping false positives at the desired level. This performance gain grows with stronger autocorrelation. At https://github.com/jakobrunge/tigramite we provide Python code for all methods involved in the simulation studies.
研究动机与目标
- 解决自相关时间序列及潜在混杂因素情景下因果发现的低召回率。
- 开发一种通过使用有信息的条件集来增大 CI 测试效应量的方法。
- 引入一种迭代的边去除与定向框架,提前确定祖先关系。
- 证明所提出方法在完备性(Oracle 情形)、正确性和排序不变性。
- 提供开源代码,以实现基准测试和复现。
提出的方法
- 引入 LPCMCI,一种针对具有潜在混杂变量的时间序列的约束基因因果发现算法。
- 在 CI 测试中定义效应量,并展示对已知父节点的默认条件如何提高检验功效。
- 开发新颖的 LPCMCI-PAG 定向规则和中间标记,以实现早期祖先关系的确定。
- 将边的去除与定向交织在一起,在测试过程中迭代地细化祖先关系。
- 证明排序无关性,以及在 oracle 假设下的正确性和完备性。
- 提供一个开源的 Python 实现,并与 SVAR-FCI 和 SVAR-RFCI 基线进行比较。
实验结果
研究问题
- RQ1在存在自相关和潜在混杂因素的情况下,LPCMCI 是否能实现比现有时间序列因果发现方法更高的召回率?
- RQ2对已知父节点(默认条件)的条件化是否会在不提高假阳性率的情况下提升 CI 测试的统计功效?
- RQ3新颖的定向规则和 LPCMCI-PAG 表征是否在边去除过程中允许更早且更可靠地确定祖先关系?
- RQ4LPCMCI 算法在 oracle 情况下是否具有排序无关性且正确且完备?
- RQ5在变量数量、时间滞后和样本量变化的情形下,LPCMCI 的表现如何?
主要发现
- LPCMCI 在自相关连续数据上显著高于 SVAR-FCI 的召回率,同时将假阳性维持在目标水平。
- 对 A 和 B 的父节点使用默认条件化增加 CI 测试效应量并提升探测能力。
- 新颖的定向规则和 LPCMCI-PAGs 使得在边去除过程中能够更早地确定祖先关系。
- 该算法具有排序无关性,在 oracle CI 决策下,正确且完备。
- 在大量仿真中,性能提升随着更强的自相关性和更大规模问题而增大。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。