QUICK REVIEW

[论文解读] Semiparametric Inference for Non-monotone Missing-Not-at-Random Data: the No Self-Censoring Model

Daniel Malinsky, Ilya Shpitser|arXiv (Cornell University)|Sep 4, 2019

Statistical Methods and Inference参考文献 36被引用 21

一句话总结

本文在“无自删失”假设下，针对非单调缺失非随机（MNAR）数据提出了一种半参数估计方法，该假设确保任一变量不会直接导致其自身缺失。通过使用几率比参数化和影响函数估计方法，该方法在存在始终可观测协变量时实现了半参数效率与双重稳健性，即使在模型误设情况下也能实现一致且高效的推断。

ABSTRACT

We study the identification and estimation of statistical functionals of multivariate data missing non-monotonically and not-at-random, taking a semiparametric approach. Specifically, we assume that the missingness mechanism satisfies what has been previously called "no self-censoring" or "itemwise conditionally independent nonresponse," which roughly corresponds to the assumption that no partially-observed variable directly determines its own missingness status. We show that this assumption, combined with an odds ratio parameterization of the joint density, enables identification of functionals of interest, and we establish the semiparametric efficiency bound for the nonparametric model satisfying this assumption. We propose a practical augmented inverse probability weighted estimator, and in the setting with a (possibly high-dimensional) always-observed subset of covariates, our proposed estimator enjoys a certain double-robustness property. We explore the performance of our estimator with simulation experiments and on a previously-studied data set of HIV-positive mothers in Botswana.

研究动机与目标

解决在具有非单调、缺失非随机（MNAR）模式的多变量数据中识别和估计统计泛函的挑战。
在“无自删失”假设下建立识别性与半参数效率，其中每个变量的缺失性在给定所有其他变量及其缺失指示变量的条件下，与自身的缺失指示变量条件独立。
开发一种实用且高效的估计方法，利用联合密度的几率比参数化以实现可处理的似然设定。
在高维始终可观测协变量的情境下，展示双重稳健性，降低对模型误设的敏感性。
通过模拟研究和对博茨瓦纳艾滋病病毒阳性母亲队列的研究，验证该方法。

提出的方法

作者采用“无自删失”假设，确保任一部分可观测变量不会直接决定其自身的缺失状态。
采用联合密度的几率比参数化（Chen, 2007, 2010），以实现对完整数据分布的灵活且一致的建模。
使用影响函数（IF）方法，在非参数完整数据模型下推导半参数高效估计量。
所提出的估计量是一种增广逆概率加权（AIPW）估计量，结合了结果回归模型与缺失性倾向模型。
该方法确保双重稳健性：只要结果模型或缺失性模型其中之一正确设定，估计量即具一致性，尤其在存在高维始终可观测协变量时表现更优。
理论结果包括高效影响函数的推导，以及在正则条件下√n一致性与渐近正态性的证明。

实验结果

研究问题

RQ1在无自删失假设下，非单调MNAR数据中的泛函能否实现非参数识别？
RQ2该模型下的半参数效率界限是什么？能否被实现？
RQ3当存在高维始终可观测协变量时，所提出的增广逆概率加权估计量是否能实现双重稳健性？
RQ4在模型误设情况下，该估计量相较于现有方法在有限样本中的表现如何？
RQ5该方法能否在具有复杂缺失模式的真实世界数据中实际应用，例如纵向HIV队列研究？

主要发现

无自删失假设使得在非单调MNAR设定下，能够对缺失模式概率与感兴趣的参数实现非参数识别。
推导出该模型的半参数效率界限，并证明可通过基于影响函数的估计量实现该界限。
所提出的增广逆概率加权估计量在存在始终可观测协变量时，实现了半参数效率与双重稳健性。
模拟实验表明，该估计量在有限样本中保持良好的性能与对模型误设的稳健性。
在博茨瓦纳HIV队列研究中，该方法成功估计了在复杂缺失模式下的关键参数，优于基于标准MAR的处理方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。