QUICK REVIEW

[論文レビュー] Benchmark of Deep Learning Models on Large Healthcare MIMIC Datasets

Sanjay Purushotham, Chuizheng Meng|arXiv (Cornell University)|Oct 23, 2017

Machine Learning in Healthcare参考文献 34被引用数 58

ひとこと要約

この論文は MIMIC-III 上で死亡率、入院期間、および ICD-9 コード群予測を対象に深層学習モデルをベンチマークし、それらをアンサンブル法やスコアリングシステムと比較しています。生データの時系列データを用いた場合、深層モデルがしばしばベースラインを上回すことを示します。

ABSTRACT

Deep learning models (aka Deep Neural Networks) have revolutionized many fields including computer vision, natural language processing, speech recognition, and is being increasingly used in clinical healthcare applications. However, few works exist which have benchmarked the performance of the deep learning models with respect to the state-of-the-art machine learning models and prognostic scoring systems on publicly available healthcare datasets. In this paper, we present the benchmarking results for several clinical prediction tasks such as mortality prediction, length of stay prediction, and ICD-9 code group prediction using Deep Learning models, ensemble of machine learning models (Super Learner algorithm), SAPS II and SOFA scores. We used the Medical Information Mart for Intensive Care III (MIMIC-III) (v1.4) publicly available dataset, which includes all patients admitted to an ICU at the Beth Israel Deaconess Medical Center from 2001 to 2012, for the benchmarking tasks. Our results show that deep learning models consistently outperform all the other approaches especially when the `raw' clinical time series data is used as input features to the models.

研究の動機と目的

大規模な MIMIC-III 医療データを用いた複数の予後タスク（死亡率、入院期間、ICD-9 コード群予測）における深層学習モデルの性能を評価する。
従来の機械学習モデル、アンサンブルの Super Learner アプローチ、および確立された ICU スコアリングシステム（SAPS-II、SOFA）と深層学習手法を比較する。
予測性能に対する入力特徴設計の影響（生データ対処理済み時系列）を評価する。

提案手法

MIMIC-III（および CareVent 部分集合）上で入院死亡率、短期死亡率、長期死亡率、および ICD-9 コード群予測を含む 4 つの臨床予測タスクをベンチマークし、入院期間を回帰として評価する。
処理済みの SAPS-II に類似した特徴、RAW の SAPS-II 関連特徴、および複数テーブルからの大規模な RAW 特徴セットを含む 3 種類の特徴セットを利用；時系列を hourly サンプリングと補完を用いて構築する。
時系列入力と非時系列入力を組み合わせる多モーダルな深層学習アーキテクチャを含む、フィードフォワード網・再帰網（GRU/LSTM）を実装する。
従来の ML モデルの Super Learner アンサンブルおよび SAPS-II、SOFA などのスコアリングシステムと比較する。
データは MIMIC-III v1.4 および MIMIC-III CareVue 部分集合を使用し、コホートは最初のICU入院と成人患者（>15歳）に分割する。
24時間および48時間ウィンドウ全体でのデータ前処理手順（単位の正規化、複数値の取り扱い、補完、特徴抽出）を記述する。

実験結果

リサーチクエスチョン

RQ1深層学習モデルは死亡予測、入院期間、ICD-9 コード群予測において伝統的な機械学習モデルおよび ICU スコアリングシステムを上回るか？（MIMIC-III データを使用）
RQ2生データの時系列特徴と SAPS-II 派生特徴のような処理済み特徴セットの性能はどう異なるか？
RQ3MIMIC-III と CareVue のサブセットの使用によるモデル性能への影響はどの程度か？

主な発見

生データの時系列を用いる場合、深層学習モデルは他の手法を一貫して上回る。
処理済みの SAPS-II 特徴セットは競争力のある結果を示すが、生データ入力を用いるとより深いモデルがより多くの予測情報を抽出できる。
本研究は MIMIC-III データ上の複数の予測ターゲットに対して Super Learner アンサンブルおよびスコアリングシステムと exhaustive にベンチマークを行う。
大規模な MIMIC-III データセット（および CareVue 部分集合）は ICU の予後タスクの深層学習モデルの堅牢な評価をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。