QUICK REVIEW

[論文レビュー] Rethinking clinical prediction: Why machine learning must consider year of care and feature aggregation

Bret Nestor, Matthew B. A. McDermott|arXiv (Cornell University)|Nov 30, 2018

Machine Learning in Healthcare参考文献 15被引用数 30

ひとこと要約

この論文は、MIMIC-III のように日付がランダム化された脱識別化済みEHRデータで学習された機械学習モデルが、無視された臨床実践の変化の影響を受けて時間経過とともに顕著な性能低下を示すことを示している。年間ケア情報と臨床的に意味のある特徴量集約を導入することで、モデルの性能が安定化し（例：死亡予測で0.3のAUC低下を回避）、将来のデータでテストされた際の性能が著しく劣化する標準的なraw-itemid表現を上回る。

ABSTRACT

Machine learning for healthcare often trains models on de-identified datasets with randomly-shifted calendar dates, ignoring the fact that data were generated under hospital operation practices that change over time. These changing practices induce definitive changes in observed data which confound evaluations which do not account for dates and limit the generalisability of date-agnostic models. In this work, we establish the magnitude of this problem on MIMIC, a public hospital dataset, and showcase a simple solution. We augment MIMIC with the year in which care was provided and show that a model trained using standard feature representations will significantly degrade in quality over time. We find a deterioration of 0.3 AUC when evaluating mortality prediction on data from 10 years later. We find a similar deterioration of 0.15 AUC for length-of-stay. In contrast, we demonstrate that clinically-oriented aggregates of raw features significantly mitigate future deterioration. Our suggested aggregated representations, when retrained yearly, have prediction quality comparable to year-agnostic models.

研究の動機と目的

MIMIC-IIIのような脱識別化済みEHRデータセットにおける日付のランダムシフトが、モデル評価と一般化の妥当性を損なうかどうかを調査すること。
EHRシステムの変更など、進化する臨床実践が、時間経過に伴う機械学習モデルの性能に与える影響を評価すること。
臨床的に意味のある特徴量集約が、日付がランダム化されたデータで学習された予測モデルの性能低下を軽減できるかどうかを評価すること。
異なる学習体制における、raw-itemidベースの特徴量と集約された臨床的意味のある特徴量のロバスト性を比較すること。

提案手法

MIMIC-IIIデータセットに実際のケア年を追加し、モデル性能の時間的評価を可能にした。
欠損データの処理に、単純な補完法（前方補完、欠損値インジケータ、直近観測からの経過時間）を用いたランダムフォレスト分類器を採用した。
2種類のデータ表現を比較：raw-itemid特徴量と、専門家が定義したグループ化（例：ラボ値のグループ化）に基づく臨床的集約特徴量。
3つの学習体制でモデルを評価：初期年のみで一度だけ学習、過去全期間を継続的に学習、直近1年間のみで短期間学習。
AUROCを最大化するため、5分割交差検証とランダムサーチによるハイパーパramータチューニングを実施した。
性能差の統計的有意性を評価するために、ウィルコクソン符号順位検定を用いた。

実験結果

リサーチクエスチョン

RQ1MIMIC-IIIデータにおける日付のランダムシフトは、将来のデータで評価した際のモデル性能の過大評価を引き起こすか？
RQ2臨床実践の進化を考慮しないで日付がランダム化されたデータで学習したモデルが、時間経過とともに性能がどのように低下するか？
RQ3臨床的インサイトに基づく特徴量集約が、死亡予測および入院期間予測タスクにおける性能低下をどの程度軽減できるか？
RQ4集約特徴量を用いた年別再学習は、年齢に依存しないモデルと同等の性能を達成できるか？
RQ5モデル性能が速やかに飽和する場合、現在の特徴量表現では死亡予測が単なるタスクである可能性があるか？

主な発見

raw-itemid特徴量で学習したモデルは、10年後に訓練したデータ（例：2001–2002年データ）を2012年のデータでテストした際、死亡予測で0.3のAUC低下を示した。
入院期間予測モデルも、同じ期間に0.15のAUC低下を示し、顕著な性能のずれ（drift）を示した。
臨床的に集約された特徴量表現は性能低下を軽減し、全評価年でベースライン性能と0.03以内のAUCを維持した。
2001–2002年のデータの10％（220名）でのみ学習したランダムフォレストモデルが、10年後に死亡予測でAUROC 0.692 ± 0.032を達成した。これは性能の急速な飽和を示唆している。
グラスゴーグローブスケール単体で24時間データでAUROC > 0.77を達成した。これは1つの特徴量が予測性能を支配する可能性があることを示している。
唯一、過去全期間のデータで学習した臨床的集約表現は、2008年のEHRシステム移行（CareVueからMetavisionに）を経ても安定した性能を維持したが、raw-itemidモデルは回復できなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。