[论文解读] Unleashing the Power of Extra-Tree Feature Selection and Random Forest Classifier for Improved Survival Prediction in Heart Failure Patients
该论文将 Extra-Tree 特征选择与网格调参的随机森林结合起来,使用 UCL HF 生存数据预测心力衰竭生存率,达到 98.33% 的准确率。
Heart failure is a life-threatening condition that affects millions of people worldwide. The ability to accurately predict patient survival can aid in early intervention and improve patient outcomes. In this study, we explore the potential of utilizing data pre-processing techniques and the Extra-Tree (ET) feature selection method in conjunction with the Random Forest (RF) classifier to improve survival prediction in heart failure patients. By leveraging the strengths of ET feature selection, we aim to identify the most significant predictors associated with heart failure survival. Using the public UCL Heart failure (HF) survival dataset, we employ the ET feature selection algorithm to identify the most informative features. These features are then used as input for grid search of RF. Finally, the tuned RF Model was trained and evaluated using different matrices. The approach was achieved 98.33% accuracy that is the highest over the exiting work.
研究动机与目标
- 使用 Extra-Tree 特征选择方法识别对心力衰竭生存预测有信息量的预测变量。
- 开发并调优随机森林分类器以预测生存结果。
- 在标准性能指标下评估模型并与现有方法进行比较。
提出的方法
- 使用 StandardScaler 对特征进行标准化。
- 应用 Extra-Tree 特征选择对特征进行排序并筛选信息量高的预测变量。
- 在特征降维后将数据分为训练集/测试集(80:20)。
- 执行网格搜索以调优 RF 的超参数(例如 max_depth、min_samples_split、criterion、class_weight、max_leaf_nodes)。
- 在训练数据上训练调优后的 RF 模型,并在测试数据上使用多种指标进行评估。
实验结果
研究问题
- RQ1 Extra-Tree 特征选择能否识别出 HF 生存预测中最具信息量的特征?
- RQ2网格调参的随机森林分类器是否在 HF 生存数据集上优于现有方法?
- RQ3ET+RF 方法在标准分类指标下的预测性能如何?
主要发现
| Matrices | Measures (%) |
|---|---|
| Precision | 100 |
| Recall | 94.12 |
| F1 Score | 96.97 |
| Roc Auc Score | 97.06 |
| MSE | 1.67 |
| Gini Coefficient | 94.12 |
| Kappa Coefficient | 95.82 |
| Matthew's Correlation Coefficient | 95.91 |
| Specificity | 100 |
| Accuracy | 98.33 |
- ET 选择的特征为 Time、ejection fraction、serum creatine 和 age。
- 调参后的 RF 模型的 precision 为 100%、recall 为 94.12%、F1 为 96.97%。
- ROC AUC 分数为 97.06%。
- Mean Squared Error (MSE) 为 1.67。
- Gini 系数为 94.12% 且 Kappa 为 95.82%。
- Accuracy 达到 98.33%,特异度为 100%,仅有一例错误分类。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。