[論文レビュー] Simple Recurrent Neural Networks is all we need for clinical events predictions using EHR data
本研究では、電子歴史記録(EHR)データを用いた臨床イベント予測のため、多様な再帰的ニューラルネットワーク(RNN)アーキテクチャを評価する。2つの実世界のEHR予測タスク(心不全リスクと30日以内の早期再入院)において、単純で一方向のゲート付き再帰ユニット(GRU)が、より複雑なモデルや従来の機械学習手法を上回る最高のパフォーマンスを達成した。これは、適切なハイパーパrameterチューニングを伴うアーキテクチャの単純さが、EHRベースの臨床予測において高パフォーマンスを達成するのに十分であることを示唆している。
Recently, there is great interest to investigate the application of deep learning models for the prediction of clinical events using electronic health records (EHR) data. In EHR data, a patient's history is often represented as a sequence of visits, and each visit contains multiple events. As a result, deep learning models developed for sequence modeling, like recurrent neural networks (RNNs) are common architecture for EHR-based clinical events predictive models. While a large variety of RNN models were proposed in the literature, it is unclear if complex architecture innovations will offer superior predictive performance. In order to move this field forward, a rigorous evaluation of various methods is needed. In this study, we conducted a thorough benchmark of RNN architectures in modeling EHR data. We used two prediction tasks: the risk for developing heart failure and the risk of early readmission for inpatient hospitalization. We found that simple gated RNN models, including GRUs and LSTMs, often offer competitive results when properly tuned with Bayesian Optimization, which is in line with similar to findings in the natural language processing (NLP) domain. For reproducibility, Our codebase is shared at https://github.com/ZhiGroup/pytorch_ehr.
研究の動機と目的
- 縦断的EHRデータを用いた臨床イベント予測のため、多様なRNNアーキテクチャのパフォーマンスを評価すること。
- 臨床現場において、より複雑なRNNの革新が単純なモデルを上回る予測性能を向上させるかどうかを特定すること。
- ランダムフォレストやロジスティック回帰などの従来の機械学習手法と比較して、RNNベースのモデルのパフォーマンスをベンチマークすること。
- ハイパーパrameterチューニングおよび最適化戦略が、EHR予測におけるモデルパフォーマンスに与える影響を評価すること。
- 自然言語処理分野での評価に類似した、包括的かつ実証的根拠に基づくRNNモデルの臨床リスク予測への評価を提供すること。
提案手法
- 本研究では、PyTorch v0.4を用いて、バニラRNN、LSTM、GRU、双方向型、拡張型、QRNN、T-LSTMを含む12種類のRNNベースのアーキテクチャを評価する。
- 3種類のセルタイプ(バニラRNN、LSTM、GRU)と3種類の接続タイプ(標準、双方向型、拡張型)を組み合わせて、9つのコアRNNバリエーションを構築する。
- 比較のため、2つの追加モデル、準RNN(QRNN)およびタイムアウェアLSTM(T-LSTM)を含める。
- 深層学習でないベースラインとして、ロジスティック回帰(LR)とランダムフォレスト(RF)を設定する。
- 埋め込み次元、隠れ層サイズ、学習率、重み減衰、許容誤差などのハイパーパrameterを、7種類の最適化アルゴリズム(Adam、Adamax、Adagrad、Adadelta、RMSprop、ASGD、SGD)を用いてベイズ最適化により最適化する。
- モデル評価には、7:1:2の訓練-検証-テスト分割を用い、Cerner Healthfacts®データベースの2つのEHRコhortでAUROCを主指標とする。
実験結果
リサーチクエスチョン
- RQ1EHRデータからの臨床イベント予測において、GRUのような単純なRNNアーキテクチャが、より複雑なRNNバージョンを上回る性能を示すのか?
- RQ2双方向型や拡張型接続といったアーキテクチャ的革新は、EHRベースの臨床モデリングにおける予測性能をどの程度向上させるのか?
- RQ3EHR予測タスクにおいて、深層学習RNNモデルは、ランダムフォレストやロジスティック回帰といった従来の機械学習モデルと比べてどうなるのか?
- RQ4計算コストとチューニング作業を考慮すると、複雑なRNNアーキテクチャによるパフォーマンス向上は正当化されるのか?
- RQ5アーキテクチャの複雑さを伴わずに、ハイパーパrameter最適化だけですでに最先端のパフォーマンスを達成できるのか?
主な発見
- 一方向型GRUは、心不全予測タスクで最高のAUROC 84.8を達成し、他のすべてのRNNバージョンおよび従来のモデルを上回った。
- 早期再入院予測においては、GRUが75.5のAUROCを達成し、Bi-GRU や Bi-LSTM を含む、テストされたすべてのモデルの中で最高であった。
- バニラRNNとGRUは、それぞれ83.3と84.8のAUROCを示し、競争力のある性能を発揮しており、単純なアーキテクチャが極めて効果的であることが示された。
- 双方向型および拡張型RNNのバリエーションは、混合結果を示した。Bi-GRUは心不全タスクで84.5のAUROC、再入院タスクで74.4のAUROCを記録し、一方向型GRUをわずかに下回った。
- アンサンブル手法(GRU + LR)の導入はパフォーマンス向上をもたらさず、これはGRU単体がすでに与えられたタスクにおいて最適であることを示唆している。
- ランダムフォレスト(78.8 AUROC)やロジスティック回帰(79.0 AUROC)といった従来のモデルは、特に再入院タスクにおいて、最良のRNNモデルに劣っていた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。