Skip to main content
QUICK REVIEW

[论文解读] Stochastic Approximation EM for Logistic Regression with Missing Values

Wei Jiang, Julie Josse|arXiv (Cornell University)|May 11, 2018
Statistical Methods and Bayesian Inference参考文献 24被引用 1
一句话总结

本文提出了一种使用Metropolis-Hastings采样的随机近似EM算法,用于缺失数据下的逻辑回归,支持参数估计、方差推断、置信区间构建、模型选择以及不完整测试集上的预测。该方法计算效率高,在模拟研究和真实创伤数据集中表现出良好的覆盖率和变量选择性能。

ABSTRACT

Logistic regression is a common classification method in supervised learning. Surprisingly, there are very few solutions for performing it and selecting variables in the presence of missing values. We propose a stochastic approximation version of the EM algorithm based on Metropolis-Hasting sampling, to perform statistical inference for logistic regression with incomplete data. We propose a complete approach, including the estimation of parameters and their variance, derivation of confidence intervals, a model selection procedure, and a method for prediction on test sets with missing values. The method is computationally efficient, and its good coverage and variable selection properties are demonstrated in a simulation study. We then illustrate the method on a dataset of polytraumatized patients from Paris hospitals to predict the occurrence of hemorrhagic shock, a leading cause of early preventable death in severe trauma cases. The aim is to consolidate the current red flag procedure, a binary alert identifying patients with a high risk of severe hemorrhage. The methodology is implemented in the R package misaem.

研究动机与目标

  • 为监督学习中缺失值下的逻辑回归缺乏稳健方法提供解决方案。
  • 开发一种计算高效的算法,支持完整的统计推断,包括参数估计和方差-协方差估计。
  • 实现在具有缺失数据的测试集上进行模型选择和预测。
  • 通过模拟研究和创伤患者结局的真实世界应用验证该方法的性能。
  • 在易于使用的R包(misaem)中实现该方法,以促进更广泛的研究应用。

提出的方法

  • 采用随机近似版本的EM算法,迭代估计缺失数据下的逻辑回归参数。
  • 在E步中整合Metropolis-Hastings采样,以处理由缺失数据引起的不可计算积分。
  • 联合估计回归系数及其标准误,从而支持置信区间的构建。
  • 基于观测对数似然,使用改进的AIC准则进行模型选择。
  • 通过整合插补与估计步骤,实现在具有缺失值的测试集上的预测。
  • 该算法已实现在R包misaem中,支持可重现性和可扩展使用。

实验结果

研究问题

  • RQ1结合Metropolis-Hastings采样的随机近似EM算法能否有效处理逻辑回归中的缺失数据?
  • RQ2所提出方法在参数估计准确性和置信区间覆盖率方面表现如何?
  • RQ3该方法能否支持在具有缺失值的测试集上实现可靠的变量选择和预测?
  • RQ4与现有方法相比,该方法在计算效率和统计性能方面表现如何?
  • RQ5该方法是否能提升在真实世界临床数据中对高风险出血性休克创伤患者的识别能力?

主要发现

  • 即使在中等至高比例的缺失数据下,该方法仍能实现良好的置信区间覆盖率。
  • 变量选择性能表现良好,在模拟研究中正确识别了相关预测变量。
  • 该方法计算效率高,能随样本量和缺失数据比例良好扩展。
  • 在多发性创伤数据集中,该方法在识别出血性休克高风险患者方面优于标准的红标程序。
  • 通过R包misaem的实现,使该方法可在多种研究场景中实际应用。
  • 该方法在存在缺失数据的情况下,成功支持完整的统计推断,包括p值和模型选择。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。