[論文レビュー] Interpretation of machine learning predictions for patient outcomes in electronic health records
この論文はEHRから7つの患者診断を予測する3つの最先端ML手法を比較し、様々な特徴重要度指標を評価する。予測が強い場合、置換重要度は臨床解釈と最も一致する。
Electronic health records are an increasingly important resource for understanding the interactions between patient health, environment, and clinical decisions. In this paper we report an empirical study of predictive modeling of seven patient outcomes using three state-of-the-art machine learning methods. Our primary goal is to validate the models by interpreting the importance of predictors in the final models. Central to interpretation is the use of feature importance scores, which vary depending on the underlying methodology. In order to assess feature importance, we compared univariate statistical tests, information-theoretic measures, permutation testing, and normalized coefficients from multivariate logistic regression models. In general we found poor correlation between methods in their assessment of feature importance, even when their performance is comparable and relatively good. However, permutation tests applied to random forest and gradient boosting models showed the most agreement, and the importance scores matched the clinical interpretation most frequently.
研究の動機と目的
- EHRデータを用いて複数の患者アウトカムに対する3つのML手法(LR、RF、XGBoost)の予測性能を評価する。
- 予測因子の解釈のために、モデル固有の特徴重要度指標とモデル非依存の指標を比較する。
- 疾患と予測期間間での重要度スコアの相関と解釈性を評価する。
提案手法
- 1996-2015年のGeisinger Health Recordsデータセット(共通・希少な検査項目と人口統計を予測変数として)を用いる。
- 診断前1日、6か月、1年前の予測期間を用いて3つのアウトカムを予測する。
- ペナルティ付きロジスティック回帰、ランダムフォレスト、XGBoostを学習させ、ハイパーパラメータを10倍交差検証で調整し、AUROCで評価する。
- テストデータ上で内部特徴重要度(係数、ジニ係数など)と置換重要度を計算する。
- 7つの疾病にわたる重要度指標間の相関と解釈性を評価する。
- 再現性のためのコードを http://github.com/EpistasisLab/interpret_ehr に提供する。
実験結果
リサーチクエスチョン
- RQ13つのML手法(LR、RF、XGBoost)は、EHRデータから7つの患者診断を異なる予測期間で予測する際にどのように性能を示すか?
- RQ2臨床的に意味のある予因子を特定する際、モデル固有の特徴重要度とモデル非依存の重要度指標はどのように比較されるか?
- RQ3重要度指標はモデル間および疾患間でどの程度一致するか、そして臨床理解と最も一致する指標はどれか?
主な発見
- XGBoostは一般に最良の予測性能を示し、Random Forestがそれに密接に続く。ペナルティ付きロジスティック回帰は弱く、特にアルツハイマー病と食道逆流症で顕著。
- Permutation importanceスコアは臨床解釈と密接に一致し、モデル間で高い相関を示す(RF置換とXGBoost置換の比較)。
- Gini重要度は予想される重要な予測子とよく一致しない一方、置換重要度はより直感的な結果を与える。
- 疾患全体で、RF置換とXGBoost置換スコアは高度に相関(PearsonのR2 = 0.95)。
- 単変量重要度は他の指標と最も相関が低く、重要因子を単独で決定するには不十分であることを示す。
- 1年予測期間では複数の疾患で高いAUROCを示す(例:腎症状を伴う糖尿病0.96)。予測能力は一般に長い予測期間ほど低下する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。