QUICK REVIEW

[논문 리뷰] Benchmark of Deep Learning Models on Large Healthcare MIMIC Datasets

Sanjay Purushotham, Chuizheng Meng|arXiv (Cornell University)|2017. 10. 23.

Machine Learning in Healthcare참고 문헌 34인용 수 58

한 줄 요약

이 논문은 MIMIC-III에서 사망률, 체류 기간, 및 ICD-9 코드 그룹 예측을 위해 심층 학습 모델을 벤치마킹하고, 이를 앙상블 방법과 점수 체계와 비교하며, 원시 시계열 데이터에서 특히 기초 모델보다 깊은 모델이 종종 더 우수함을 보인다.

ABSTRACT

Deep learning models (aka Deep Neural Networks) have revolutionized many fields including computer vision, natural language processing, speech recognition, and is being increasingly used in clinical healthcare applications. However, few works exist which have benchmarked the performance of the deep learning models with respect to the state-of-the-art machine learning models and prognostic scoring systems on publicly available healthcare datasets. In this paper, we present the benchmarking results for several clinical prediction tasks such as mortality prediction, length of stay prediction, and ICD-9 code group prediction using Deep Learning models, ensemble of machine learning models (Super Learner algorithm), SAPS II and SOFA scores. We used the Medical Information Mart for Intensive Care III (MIMIC-III) (v1.4) publicly available dataset, which includes all patients admitted to an ICU at the Beth Israel Deaconess Medical Center from 2001 to 2012, for the benchmarking tasks. Our results show that deep learning models consistently outperform all the other approaches especially when the `raw' clinical time series data is used as input features to the models.

연구 동기 및 목표

다수의 예후 예측 작업(사망률, 체류 기간, ICD-9 코드 그룹 예측)에 걸친 대규모 MIMIC-III 헬스케어 데이터에서 심층 학습 모델의 성능을 평가한다.
전통적인 기계학습 모델, 앙상블 Super Learner 접근법, 그리고 SAPS-II, SOFA와 같은 확립된 ICU 점수 체계와 심층 학습 방법을 비교한다.
원시 시계열 대 처리된 시계열 등 입력 특징 설계의 예측 성능에 미치는 영향을 평가한다.

제안 방법

MIMIC-III(및 CareVent 하위집합)에서 세 가지 임상 예측 작업 벤치마크: 입원 중 사망률, 단기 사망률, 장기 사망률, ICD-9 코드 그룹 예측, 그리고 체류 기간을 회귀로 추가로 평가한다.
SAPS-II와 유사하게 처리된 특징, 원시 SAPS-II 관련 특징, 그리고 여러 테이블에서 추출한 대규모 원시 특징 세트의 세 가지 특징 세트를 활용하고, 시간대별 샘플링 및 보간을 통한 시계열 구성 적용한다.
피드포워드 네트워크와 순환 네트워크(GRU/LSTM), 시간적 입력과 비시간적 입력을 결합한 다중 모달 심층 학습 아키텍처를 포함한 심층 학습 모델을 구현한다.
전통 ML 모델의 Super Learner 앙상블 및 SAPS-II, SOFA와 같은 점수 체계와 비교한다.
MIMIC-III v1.4 데이터와 MIMIC-III CareVue 하위집합을 사용하고 최초 ICU 입원 및 성인 환자(>15세)로 코호팅한다.
단위 정규화, 다중 값 처리, 보간, 24h 및 48h 창 전반에 걸친 특징 추출을 포함한 데이터 전처리 단계들을 설명한다.

실험 결과

연구 질문

RQ1MIMIC-III 데이터를 사용한 사망 예측, 체류 기간, ICD-9 코드 그룹 예측에서 심층 학습 모델이 전통적인 기계 학습 모델 및 ICU 점수 체계보다 성능이 우수한가?
RQ2원시 시계열 특징과 SAPS-II 유도 특징과 같은 처리된 특징 세트에 대해 심층 학습 모델의 성능은 어떻게 다른가?
RQ3MIMIC-III 연구 데이터셋과 CareVue 하위집합을 사용하는 것이 모델 성능에 미치는 비교적 영향은 무엇인가?

주요 결과

원시 시계열 데이터를 사용할 때 심층 학습 모델은 벤치마킹 작업 전반에서 다른 접근법보다 일관되게 우수하다.
처리된 SAPS-II 특징 세트는 경쟁력 있는 결과를 산출하지만, 원시 특징 입력은 더 깊은 모델이 더 많은 예측 정보를 추출하도록 한다.
본 연구는 MIMIC-III 데이터의 다수 예측 대상에서 Super Learner 앙상블 및 점수 체계에 대한 포괄적 벤치마킹을 제공한다.
대규모 MIMIC-III 데이터셋(및 CareVue 하위집합)은 ICU 예후 작업에 대한 심층 학습 모델의 강건한 평가를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.