[论文解读] Causal Discovery in the Presence of Missing Data
本文提出缺失值PC(MVPC)算法,作为PC算法的基于校正的扩展,可在MCAR、MAR和MNAR缺失机制下恢复因果结构。通过仅识别并校正一小部分错误的条件独立性检验,MVPC在MNAR下仍能实现渐近正确性,且在合成数据、模拟神经病理性疼痛数据和真实世界数据集上的实证验证表明,其性能优于基线方法。
Missing data are ubiquitous in many domains including healthcare. When these data entries are not missing completely at random, the (conditional) independence relations in the observed data may be different from those in the complete data generated by the underlying causal process. Consequently, simply applying existing causal discovery methods to the observed data may lead to wrong conclusions. In this paper, we aim at developing a causal discovery method to recover the underlying causal structure from observed data that follow different missingness mechanisms, including missing completely at random (MCAR), missing at random (MAR), and missing not at random (MNAR). With missingness mechanisms represented by missingness graphs, we analyse conditions under which additional correction is needed to derive conditional independence/dependence relations in the complete data. Based on our analysis, we propose the Missing Value PC (MVPC) algorithm for both continuous and binary variables, which extends the PC algorithm to incorporate additional corrections. Our proposed MVPC is shown in theory to give asymptotically correct results even on data that are MAR or MNAR. Experimental results on synthetic data show that the proposed algorithm is able to find correct causal relations even in the general case of MNAR. Moreover, we create a neuropathic pain diagnostic simulator for evaluating causal discovery methods. Evaluated on such simulated neuropathic pain diagnosis records and the other two real world applications, MVPC outperforms the other benchmark methods.
研究动机与目标
- 解决观测数据中因MCAR、MAR或MNAR机制导致缺失值时,因果发现产生偏差的挑战。
- 识别PC算法中哪些条件独立性检验受缺失影响而需校正,而非对所有检验进行校正。
- 开发一种理论基础扎实、高效的校正框架,确保在一般缺失机制下保持渐近正确性。
- 利用新型神经病理性疼痛诊断模拟器,在真实医疗场景中评估因果发现方法。
- 提供实用、可实现的校正技术——基于置换的校正和密度比加权校正——以适用于现实世界应用。
提出的方法
- MVPC通过基于缺失机制理论分析,仅选择性地校正受缺失影响的条件独立性检验,从而扩展PC算法。
- 该方法使用缺失图来建模缺失指示变量的依赖结构及其与观测变量的关系。
- 提出一种基于置换的校正方法(PermC),在较弱假设下估计条件独立关系,尤其在缺失机制满足特定结构条件时表现更优。
- 当PermC的条件不满足时,采用密度比加权校正(DRW)方法,利用核密度估计近似逆概率权重。
- 当存在自掩蔽缺失(SFM)时,算法会识别并标记不确定的边,其中某一变量的缺失性依赖于包括其自身在内的多个原因。
- MVPC在PC算法的骨架发现阶段集成校正步骤,确保仅应用必要校正,以保持计算效率。
实验结果
研究问题
- RQ1在MCAR、MAR、MNAR等缺失机制下,约束型方法(如PC)的因果发现何时会引入误差?
- RQ2PC算法中的哪些具体条件独立性检验最容易受缺失影响而产生偏差?能否系统性地识别?
- RQ3能否设计一种基于校正的方法,仅校正最少数量的检验,同时仍能恢复真实的因果结构?
- RQ4所提出的校正方法——PermC和DRW——在不同缺失机制下(尤其是MNAR)的效能如何?
- RQ5MVPC能否在合成数据和真实世界医疗应用中实现渐近正确性,并优于现有方法?
主要发现
- 在缺失机制满足弱假设的前提下,MVPC即使在缺失不随机(MNAR)情况下,也能实现恢复真实因果结构的渐近正确性。
- 基于置换的校正方法(PermC)显著优于密度比加权方法(DRW),尤其在低维设置下,因其数据和计算需求更低。
- 合成数据实验结果表明,MVPC在一般MNAR场景下能成功恢复正确的因果关系,优于基线方法。
- 在神经病理性疼痛诊断模拟器上的评估表明,MVPC在真实医疗应用场景中表现出强健性和有效性。
- 在两个真实世界数据集上的实验表明,MVPC优于现有方法,证实其在医学研究中常见缺失数据场景下的实际应用价值。
- 该方法能正确识别并标记自掩蔽缺失(SFM)情况下的不确定边,从而透明地揭示因果推断可能不可靠的位置。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。