Skip to main content
QUICK REVIEW

[论文解读] Understanding Heart-Failure Patients EHR Clinical Features via SHAP Interpretation of Tree-Based Machine Learning Model Predictions

Shuyu Lu, Ruoyu Chen|PubMed|Mar 20, 2021
Machine Learning in Healthcare参考文献 25被引用 36
一句话总结

该研究使用 XGBoost 以结构化 EHR 数据预测左心室 EF,并使用 SHAP 进行特征解释,随后通过 SHAP 驱动的 t-SNE 聚类来识别 HF 亚型。

ABSTRACT

Heart failure (HF) is a major cause of mortality. Accurately monitoring HF progress and adjusting therapies are critical for improving patient outcomes. An experienced cardiologist can make accurate HF stage diagnoses based on combination of symptoms, signs, and lab results from the electronic health records (EHR) of a patient, without directly measuring heart function. We examined whether machine learning models, more specifically the XGBoost model, can accurately predict patient stage based on EHR, and we further applied the SHapley Additive exPlanations (SHAP) framework to identify informative features and their interpretations. Our results indicate that based on structured data from EHR, our models could predict patients' ejection fraction (EF) scores with moderate accuracy. SHAP analyses identified informative features and revealed potential clinical subtypes of HF. Our findings provide insights on how to design computing systems to accurately monitor disease progression of HF patients through continuously mining patients' EHR data.

研究动机与目标

  • 推动如何从连续的 EHR 挖掘来监测 HF 疾病进展。
  • 评估使用基于树的模型从结构化 EHR 数据预测 EF 分数的可行性。
  • 识别信息丰富的 EHR 特征并利用 SHAP 解释其对 EF 预测的影响。
  • 通过对 SHAP 派生的特征贡献进行聚类,探索 HF 患者亚型。

提出的方法

  • 训练一个 XGBoost 回归模型,使用来自 60,835 例 HF 诊断患者的 1894 个结构化 EHR 特征来预测 EF 分数。
  • 通过筛选高频使用的特征并将数值值在百分位界限内归一化来预处理数据。
  • 使用 5 折交叉验证和 GridSearchCV 调整 XGBoost 的超参数。
  • 应用 SHAP 计算对 EF 预测的逐案特征贡献,并生成全局与局部解释。
  • 用 SHAP 摘要和散点图可视化特征影响;并与 XGBoost 特征重要性(覆盖率)进行比较。
  • 在 SHAP 值上对 HF 亚型进行识别,基于特征贡献(SHAP 空间)。

实验结果

研究问题

  • RQ1EF 分数能否从结构化 EHR 数据中使用 XGBoost 进行准确预测?
  • RQ2在用 SHAP 解释时,哪些 EHR 特征对 EF 预测影响最大?
  • RQ3基于 SHAP 的表示是否揭示临床有意义的 HF 患者子组?
  • RQ4性别、血压和心肌病诊断如何影响 EF 预测?

主要发现

  • XGBoost 在验证集上实现 RMSE 为 12.6303(95% CI),R^2 = 0.2619(p < 10^-32)。
  • SHAP 将性别、BP、BMI 和与心肌病相关的诊断识别为对 EF 预测有信息量的特征。
  • SHAP 空间聚类揭示在原始特征空间中不明显的 HF 亚型,其中性别成为一个主要的分离因素。
  • 在 SHAP/模型解释中,女性患者的 EF 约高于男性患者约 5%。
  • BP 收缩压和舒张压值具有较高的 SHAP 影响,但对 EF 预测的方向相反。
  • 二尖瓣返流的存在在基于 SHAP 的分析中与较低的 EF 子组对齐。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。