[论文解读] Survival Meets Classification: A Novel Framework for Early Risk Prediction Models of Chronic Diseases
该论文将生存分析与分类结合,利用非实验室EMR数据为五种慢性病构建早期风险预测模型,并通过可解释性经临床医生验证的生存森林方法进行验证。
Chronic diseases are long-lasting conditions that require lifelong medical attention. Using big EMR data, we have developed early disease risk prediction models for five common chronic diseases: diabetes, hypertension, CKD, COPD, and chronic ischemic heart disease. In this study, we present a novel approach for disease risk models by integrating survival analysis with classification techniques. Traditional models for predicting the risk of chronic diseases predominantly focus on either survival analysis or classification independently. In this paper, we show survival analysis methods can be re-engineered to enable them to do classification efficiently and effectively, thereby making them a comprehensive tool for developing disease risk surveillance models. The results of our experiments on real-world big EMR data show that the performance of survival models in terms of accuracy, F1 score, and AUROC is comparable to or better than that of prior state-of-the-art models like LightGBM and XGBoost. Lastly, the proposed survival models use a novel methodology to generate explanations, which have been clinically validated by a panel of three expert physicians.
研究动机与目标
- 使用常规EMR数据(不含实验室数据)为五种慢性病(糖尿病、高血压、慢性肾病 CKD、慢性阻塞性肺病 COPD、冠心病 CHD)开发早期风险监测模型。
- 对生存模型进行再设计,使其能够生成便于临床实际使用的分类推断。
- 使用基于SHAP的方法提供对生存模型决策的可解释性说明。
- 通过专家医师评审验证特征集和模型工作流的临床相关性。
提出的方法
- 重构生存模型以实现高效的分类和风险预测。
- 推导三种从生存转化为分类的技术:RS(风险分数阈值)、SP(在最后一个时间步的生存概率,阈值0.5)、LN(生存树中的叶节点分布)。
- 在三种数据准备方法下尝试树集成模型(随机森林、XGBoost、LightGBM)以及随机生存森林(RSF)作为分类器。
- 使用五种疾病的F1、C-index、AUROC和AUPRC评估性能;比较基于生存的分类与传统分类器。
- 通过自定义的基于SHAP的方法对RSF做出解释,使用模型生成的二进制预测作为KernelExplainer输入,并与SurvSHAP进行验证。

实验结果
研究问题
- RQ1是否可以将生存模型重新设计为在提供时间-到事件风险的同时也能提供准确的疾病分类?
- RQ2在从EMR数据推导 Lifetme 风险时,哪种数据准备方法能获得最佳分类性能?
- RQ3在缺少实验室结果的EMR数据中,基于RSF的分类与传统分类器(RF、XGBoost、LightGBM)在早期疾病风险预测中的表现有何差异?
- RQ4是否能够在没有代理模型的情况下针对生存模型决策产生对临床有意义的解释,并且得到临床医生的验证?
主要发现
- 基于生存森林的分类在若干数据准备方法下实现了有竞争力的F1分数,并超过传统分类器。
- 方法2(Overlap)和方法3(Distinct)通常优于方法1在验证指标上的表现,RSF+SP/LN往往获得较强结果。
- 在测试集上,采用SP、LN和RS方法的RSF在多种疾病上表现出较高的AUROC和AUPRC,其中高血压仍然是最具挑战性的预测。
- 总体而言,基于存活概率的分类(SP)由于从生存输出到类别标签的过渡更为平滑,成为实际部署的可行路径。
- 通过自定义的基于SHAP的方法实现的可解释性与SurvSHAP高度一致,并得到临床医生的验证。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。