Skip to main content
QUICK REVIEW

[論文レビュー] Understanding Heart-Failure Patients EHR Clinical Features via SHAP Interpretation of Tree-Based Machine Learning Model Predictions

Shuyu Lu, Ruoyu Chen|PubMed|Mar 20, 2021
Machine Learning in Healthcare参考文献 25被引用数 36
ひとこと要約

この研究は構造化EHRデータから左室EFを予測するためにXGBoostを用い、特徴の解釈にはSHAPを用い、SHAP駆動のt-SNEクラスタリングでHFサブタイプを識別する。

ABSTRACT

Heart failure (HF) is a major cause of mortality. Accurately monitoring HF progress and adjusting therapies are critical for improving patient outcomes. An experienced cardiologist can make accurate HF stage diagnoses based on combination of symptoms, signs, and lab results from the electronic health records (EHR) of a patient, without directly measuring heart function. We examined whether machine learning models, more specifically the XGBoost model, can accurately predict patient stage based on EHR, and we further applied the SHapley Additive exPlanations (SHAP) framework to identify informative features and their interpretations. Our results indicate that based on structured data from EHR, our models could predict patients' ejection fraction (EF) scores with moderate accuracy. SHAP analyses identified informative features and revealed potential clinical subtypes of HF. Our findings provide insights on how to design computing systems to accurately monitor disease progression of HF patients through continuously mining patients' EHR data.

研究の動機と目的

  • 継続的なEHRマイニングがHF病の進行をどのように監視できるかを動機づける。
  • 木モデルを用いて構造化EHRデータからEFスコアを予測する実現可能性を評価する。
  • EF予測に影響を与える有益なEHR特徴を特定し、SHAPを用いてその影響を解釈する。
  • SHAP由来の特徴寄与度をクラスタリングしてHF患者のサブタイプを探索する。

提案手法

  • 60,835人のHF診断患者から得られた1894の構造化EHR特徴量からEFスコアを予測するXGBoost回帰モデルを訓練する。
  • 頻度の高い特徴をフィルタリングし、数値値をパーセンタイルの範囲内で正規化してデータを前処理する。
  • 5分割のクロスバリデーションとGridSearchCVを用いてXGBoostのハイパーパラメータを調整する。
  • SHAPを適用してケース別の特徴寄与をEF予測に対して計算し、グローバルおよびローカルな説明を生成する。
  • SHAPのサマリー図と散布図で特徴の影響を可視化し、XGBoostの特徴重要度(カバレージ)と比較する。
  • SHAP値に対してt-SNEを用い、特徴寄与度(SHAP空間)に基づいてHFサブタイプを特定する。

実験結果

リサーチクエスチョン

  • RQ1構造化EHRデータからXGBoostを用いてEFスコアを正確に予測できるか?
  • RQ2SHAPで解釈した場合、どのEHR特徴がEF予測に最も影響を与えるか?
  • RQ3SHAPベースの表現は臨床的に意味のあるHF患者のサブグループを明らかにするか?
  • RQ4性別、血圧、心筋症の診断がEF予測にどのように寄与するか?

主な発見

  • XGBoostは検証でRMSE 12.6303(95% CI)を達成し、R^2 = 0.2619(p < 10^-32)を示した。
  • SHAPはEF予測に有益な特徴として性別、BP、BMI、および心筋症関連診断を特定する。
  • SHAP空間のクラスタリングは元の特徴空間には明らかでないHFサブタイプを示し、性別が主要な分離因子として現れる。
  • SHAP/モデルの解釈では女性のEFが男性より約5%高い傾向がある。
  • 収縮期血圧と拡張期血圧の値はSHAPの影響が大きいが、EF予測には正反対の方向性を示す。
  • 僧帽弁逆流の有無はSHAPベースの分析で低EFサブグループと一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。