QUICK REVIEW

[논문 리뷰] Rethinking clinical prediction: Why machine learning must consider year of care and feature aggregation

Bret Nestor, Matthew B. A. McDermott|arXiv (Cornell University)|2018. 11. 30.

Machine Learning in Healthcare참고 문헌 15인용 수 30

한 줄 요약

이 논문은 MIMIC-III와 같이 랜덤화된 캘린더 날짜를 사용해 익명화된 EHR 데이터를 학습시킨 머신러닝 모델이 임상 실무의 변화를 고려하지 않아 시간이 지남에 따라 성능이著しく 떨어진다는 것을 입증한다. 연도별 치료 연도 및 임상적으로 의미 있는 특징 집합을 도입함으로써 모델은 안정적인 성능을 유지한다 (예: 사망 예측에서 0.3 AUC 감소 방지). 반면, 향후 데이터에서 테스트했을 때 성능이 저하되는 표준적인 원시 itemid 표현 방식보다 우수한 성능을 보인다.

ABSTRACT

Machine learning for healthcare often trains models on de-identified datasets with randomly-shifted calendar dates, ignoring the fact that data were generated under hospital operation practices that change over time. These changing practices induce definitive changes in observed data which confound evaluations which do not account for dates and limit the generalisability of date-agnostic models. In this work, we establish the magnitude of this problem on MIMIC, a public hospital dataset, and showcase a simple solution. We augment MIMIC with the year in which care was provided and show that a model trained using standard feature representations will significantly degrade in quality over time. We find a deterioration of 0.3 AUC when evaluating mortality prediction on data from 10 years later. We find a similar deterioration of 0.15 AUC for length-of-stay. In contrast, we demonstrate that clinically-oriented aggregates of raw features significantly mitigate future deterioration. Our suggested aggregated representations, when retrained yearly, have prediction quality comparable to year-agnostic models.

연구 동기 및 목표

MIMIC-III와 같은 익명화된 EHR 데이터셋에서 날짜를 랜덤화하는 것이 모델 평가의 타당성과 일반화 능력에 악영향을 미치는지 조사하기 위해.
EHR 시스템 변경과 같은 변화하는 임상 실무가 시간이 지남에 따라 머신러닝 모델 성능에 미치는 영향을 평가하기 위해.
임상적으로 유의미한 특징 집합화가 날짜가 랜덤화된 데이터로 훈련된 예측 모델의 성능 저하를 완화할 수 있는지 평가하기 위해.
다양한 훈련 방식에서 원시 itemid 기반 특징과 집합화된 임상적 의미를 가진 특징 간의 내성 비교하기 위해.

제안 방법

시간적 성능 평가를 가능하게 하기 위해 MIMIC-III 데이터셋에 실제 치료 연도를 추가하였다.
결측치 처리를 위해 단순 보간(앞서 채운 값, 누락 지표, 마지막 관찰 후 경과 시간)을 사용한 랜덤 포레스트 분류기를 사용하였다.
두 가지 데이터 표현 방식을 비교: 원시 itemid 특징과 전문가가 정의한 그룹화 기반(예: 루틴 랩 검사 값 집합)의 임상적 특징 집합.
세 가지 훈련 방식에서 평가: 초기 연도에 한 번만 훈련, 이전 연도 전체를 지속적으로 훈련, 이전 연도만 단기 훈련.
AUROC를 최대화하기 위해 5겹 교차검증과 무작위 검색을 사용한 하이퍼파rameter 튜닝을 실시하였다.
표본 간 성능 차이의 통계적 유의성을 평가하기 위해 윌코크슨 부호 순위 검정을 적용하였다.

실험 결과

연구 질문

RQ1MIMIC-III 데이터에서 날짜를 랜덤화하는 것이 향후 데이터에서 평가할 경우 모델 성능을 과대평가하는가?
RQ2임상 실무의 변화를 고려하지 않고 날짜가 랜덤화된 데이터로 훈련된 모델이 시간이 지남에 따라 성능이 어떻게 저하되는가?
RQ3임상적으로 유의미한 특징 집합화가 사망 및 입원 기간 예측 과제에서 성능 저하를 어느 정도 감소시키는가?
RQ4집합화된 특징을 사용해 연도별 재훈련을 수행하면 연도에 관계없는 모델과 유사한 성능을 달성할 수 있는가?
RQ5모델 성능이 빠르게 포화 상태에 도달하는가? 이는 현재의 데이터 표현 방식 하에서 사망 예측이 단순한 과제일 수 있음을 시사한다.

주요 결과

원시 itemid 특징으로 훈련된 모델은 훈련 후 10년이 지난 데이터(예: 2001–2002년 데이터를 2012년 데이터에서 테스트)에서 사망 예측 시 0.3 AUC 감소를 보였다.
입원 기간 예측 모델은 동일한 기간 동안 원시 itemid 특징으로 훈련된 경우 0.15 AUC 감소를 보이며 성능 저하가著명하게 나타났다.
임상적으로 집계된 특징 표현 방식은 성능 저하를 감소시켜 모든 평가 연도에서 기준 성능과 0.03 이내로 유지하였다.
2001–2002년 데이터의 10%만(220명)으로 훈련한 랜덤 포레스트 모델이 10년 후 사망 예측에서 AUROC 0.692 ± 0.032를 기록하여 빠른 성능 포화 상태를 시사하였다.
글래스고 콤마 척도 하나만으로도 24시간 데이터에서 AUROC > 0.77를 달성하여 단일 특징이 예측 성능를 지배할 수 있음을 보여주었다.
오직 임상적으로 집계된 표현 방식으로 이전 전체 데이터를 훈련한 모델만 2008년 EHR 시스템 전환(CareVue에서 Metavision으로) 동안 안정적인 성능을 유지하였고, 원시 itemid 모델은 회복하지 못했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.