Skip to main content
QUICK REVIEW

[论文解读] A logic-based resampling with matching approach to multiple imputation of missing data

Chinchin Wang, Tyrel Stokes|arXiv (Cornell University)|Apr 14, 2020
Statistical Methods and Bayesian Inference被引用 1
一句话总结

本文提出了一种基于逻辑的重采样匹配(RWM)方法,用于在模型方法因数据约束而不可行时对缺失数据进行多重插补。通过将具有缺失值的记录与相似的观测记录进行匹配,基于观测数据分配概率,并从这些匹配项中随机抽样,RWM 在多个数据集中生成合理的插补值,从而实现无需依赖参数模型的稳健统计分析。

ABSTRACT

Researchers often use model-based multiple imputation to handle missing at random data to minimize bias while making the best use of all available data. However, there are sometimes constraints within the data that make model-based imputation difficult and may result in implausible values. In these contexts, we explore the advantages of employing a logic-based resampling with matching (RWM) approach for multiple imputation. This approach is similar to random hot deck imputation and allows for more plausible imputations when model-based approaches are not feasible. We illustrate RWM imputation for missing pain, activity frequency, and sport data using The Childhood Health, Activity, and Motor Performance School Study Denmark (CHAMPS-DK). We match records with missing data to several observed records, generate probabilities for matched records using observed data, and sample from these records based on the probability of each occurring. Because imputed values are generated randomly, multiple complete datasets can be created. They are then analyzed and averaged in the same way as model-based multiple imputation. This approach can be extended to other datasets as an alternative when model-based approaches are infeasible, specifically where there are constraints between covariates.

研究动机与目标

  • 解决在存在数据约束(如变量间逻辑关系)导致合理插补困难时,基于模型的多重插补方法的局限性。
  • 开发一种在生成真实插补值的同时保持数据约束和逻辑关系的方法。
  • 在参数假设被违反或生成不切实际值的情况下,为基于模型的插补提供一种实用替代方案。
  • 通过使用来自 CHAMPS-DK 研究的真实世界健康与活动数据,证明 RWM 方法的可行性和有效性。
  • 通过重采样与匹配实现多重插补,确保与标准多重插补分析工作流程兼容。

提出的方法

  • 该方法基于协变量识别与缺失数据记录在逻辑和统计上相似的观测记录。
  • 利用观测数据的频率为每个潜在匹配项分配概率,确保更相似的记录具有更高的选择概率。
  • 根据分配的概率,从匹配记录中随机抽取插补值,从而在不同插补中保持随机变异。
  • 通过重复匹配和抽样过程生成多个完整数据集,保留多重插补所需的变异性。
  • 对生成的数据集分别进行分析,并使用标准的多重插补合并规则合并结果。
  • 该方法特别适用于存在变量间逻辑约束的数据,如互斥类别或有界范围。

实验结果

研究问题

  • RQ1当数据约束阻止有效参数建模时,基于逻辑的重采样匹配方法是否能产生比基于模型的方法更合理的插补值?
  • RQ2与传统基于模型的方法相比,RWM 方法在插补过程中如何保持逻辑关系和数据约束?
  • RQ3在存在复杂依赖关系的缺失数据中,RWM 方法在多大程度上保持了统计效率并减少了偏差?
  • RQ4RWM 方法能否有效应用于具有非连续或受限变量的真实世界健康与行为数据?
  • RQ5在缺失随机机制下,RWM 方法与基于模型的插补方法在覆盖率和估计准确性方面的表现如何比较?

主要发现

  • RWM 方法通过利用观测数据模式而无需依赖参数模型,成功生成了合理的插补值。
  • 插补值受到数据逻辑结构的约束,降低了生成不切实际或不一致值的风险。
  • 该方法通过从匹配记录中随机抽样生成多个完整数据集,支持标准的多重插补分析。
  • 当基于模型的插补因数据约束(如变量间的逻辑依赖)而失败时,该方法特别有效。
  • 该方法与标准多重插补工作流程保持兼容,可通过结果合并实现有效的统计推断。
  • 在 CHAMPS-DK 数据上的实证应用证明了 RWM 在插补缺失疼痛、活动频率和运动参与度数据方面的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。