Skip to main content
QUICK REVIEW

[논문 리뷰] Unleashing the Power of Extra-Tree Feature Selection and Random Forest Classifier for Improved Survival Prediction in Heart Failure Patients

Md. Simul Hasan Talukder, Rejwan Bin Sulaiman|arXiv (Cornell University)|2023. 08. 09.
Artificial Intelligence in Healthcare인용 수 8
한 줄 요약

이 논문은 Extra-Tree 특성 선택과 격자 튜닝된 Random Forest를 결합하여 UCL HF 생존 데이터를 사용해 심부전 생존을 예측하며 정확도 98.33%를 달성했다.

ABSTRACT

Heart failure is a life-threatening condition that affects millions of people worldwide. The ability to accurately predict patient survival can aid in early intervention and improve patient outcomes. In this study, we explore the potential of utilizing data pre-processing techniques and the Extra-Tree (ET) feature selection method in conjunction with the Random Forest (RF) classifier to improve survival prediction in heart failure patients. By leveraging the strengths of ET feature selection, we aim to identify the most significant predictors associated with heart failure survival. Using the public UCL Heart failure (HF) survival dataset, we employ the ET feature selection algorithm to identify the most informative features. These features are then used as input for grid search of RF. Finally, the tuned RF Model was trained and evaluated using different matrices. The approach was achieved 98.33% accuracy that is the highest over the exiting work.

연구 동기 및 목표

  • Extra-Tree 특성 선택 방법을 사용하여 심부전 생존에 대한 정보성 예측 변수를 식별한다.
  • 생존 결과를 예측하기 위해 Random Forest 분류기를 개발하고 조정한다.
  • 표준 성능 지표에 대해 모델을 평가하고 기존 방법과 비교한다.

제안 방법

  • StandardScaler로 특징 표준화.
  • Extra-Tree 특성 선택을 적용하여 정보성 예측 변수를 순위화하고 선택한다.
  • 특성 감소 후 데이터가 교육/테스트(80:20)로 분할된다.
  • RF 하이퍼파라미터를 조정하기 위한 격자 탐색(grid search)을 수행한다(예: max_depth, min_samples_split, criterion, class_weight, max_leaf_nodes).
  • 훈련 데이터에서 조정된 RF 모델을 학습하고 테스트 데이터에서 다중 지표를 사용해 평가한다.

실험 결과

연구 질문

  • RQ1ET 특성 선택이 HF 생존 예측에 가장 정보가 많은 특징을 식별할 수 있는가?
  • RQ2격자 튜닝된 Random Forest 분류기가 HF 생존 데이터 세트에서 최신 방법보다 우수한 성능을 보이는가?
  • RQ3ET+RF 접근법의 표준 분류 지표에서 예측 성능은 어떠한가?

주요 결과

행렬측정치 (%)
정밀도100
재현율94.12
F1 점수96.97
ROC AUC 점수97.06
평균 제곱 오차(MSE)1.67
지니 계수94.12
카파 계수95.82
매튜스 상관계수95.91
특이도100
정확도98.33
  • ET에 의해 선택된 특징은 Time, ejection fraction, serum creatine, 그리고 나이이다.
  • 조정된 RF 모델은 정밀도 100%, 재현율 94.12%, F1 96.97%를 달성한다.
  • ROC AUC 점수는 97.06%이다.
  • 평균 제곱 오차(MSE)는 1.67이다.
  • 지니 계수는 94.12%이고 카파 계수는 95.82%이다.
  • 정확도는 98.33%이며 특이도는 100%이고 오분류는 단 1건이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.