[論文レビュー] Modeling Missing Data in Clinical Time Series with RNNs
本論文は、欠測を特徴量として扱うことが不規則な小児ICU時系列データにおけるRNNベースの多ラベル診断分類を改善し、補完を多用するベースラインを上回ることを示している。さらに、線形モデルは手作業で設計した欠測データ特徴量の恩恵を受けること、そして欠測性だけでも一部診断の予測に有効であることを示す。
We demonstrate a simple strategy to cope with missing data in sequential inputs, addressing the task of multilabel classification of diagnoses given clinical time series. Collected from the pediatric intensive care unit (PICU) at Children's Hospital Los Angeles, our data consists of multivariate time series of observations. The measurements are irregularly spaced, leading to missingness patterns in temporally discretized sequences. While these artifacts are typically handled by imputation, we achieve superior predictive performance by treating the artifacts as features. Unlike linear models, recurrent neural networks can realize this improvement using only simple binary indicators of missingness. For linear models, we show an alternative strategy to capture this signal. Training models on missingness patterns only, we show that for some diseases, what tests are run can be as predictive as the results themselves.
研究の動機と目的
- PICUデータの臨床時系列における不規則で非ランダムな欠測を動機づけ、対処する。
- 欠測データ指標が多ラベル診断の予測性能を改善できるかを評価する。
- エンジニアリング済み特徴量と生データ特徴量を用いたRNN、補完戦略、MLP、および線形モデルを比較する。
提案手法
- 時間単位で離散化した臨床系列に対してLSTMベースのRNNを用いた多ラベル診断を行う。
- 各時点の各特徴量についてバイナリの欠測指標を入力に追加する。
- 単純な補完(ゼロ埋め、前方埋め)を検討し、指標のみの使用または指標と併用した場合と比較する。
- 指標系列と時間ウィンドウに基づく手作業で設計した欠測データ特徴を導入する。
- シーケンスの各ステップに局所的な監視を提供するターゲット再現法と、訓練時の最終ステップ損失を使用する。
実験結果
リサーチクエスチョン
- RQ1標準的な補完戦略と比較して、欠測を入力特徴としてモデル化することはICU表現型の予測性能を改善するか?
- RQ2RNNは臨床時系列の非ランダム欠測パターンを捉えるために欠測データ指標を効果的に活用できるか?
- RQ3手作業で設計した欠測データ特徴は線形モデルとMLPを改善するか、そしてこれらはRNNとどのように比較されるか?
- RQ4欠測データ情報のみ(指標のみ)で特定の診断を予測できるか?
主な発見
| モデル | マイクロAUC | マクロAUC | マイクロF1 | マクロF1 | P@10 |
|---|---|---|---|---|---|
| Base Rate | 0.7128 | 0.5 | 0.1346 | 0.0343 | 0.0788 |
| Best Possible | 1.0 | 1.0 | 1.0 | 1.0 | 0.2281 |
| Logistic Regression - Zeros | 0.8108 | 0.7244 | 0.2149 | 0.0999 | 0.1014 |
| Log Reg - Impute | 0.8201 | 0.7455 | 0.2404 | 0.1189 | 0.1038 |
| Log Reg - Zeros & Indicators | 0.8143 | 0.7269 | 0.2239 | 0.1082 | 0.1017 |
| Log Reg - Impute & Indicators | 0.8242 | 0.7442 | 0.2467 | 0.1234 | 0.1045 |
| Log Reg - Indicators Only | 0.7929 | 0.6924 | 0.1952 | 0.0889 | 0.0939 |
| Multilayer Perceptron - Zeros | 0.8263 | 0.7502 | 0.2344 | 0.1072 | 0.1048 |
| MLP - Impute | 0.8376 | 0.7708 | 0.2557 | 0.1245 | 0.1031 |
| MLP - Zeros & Indicators | 0.8381 | 0.7705 | 0.2530 | 0.1224 | 0.1067 |
| MLP - Impute & Indicators | 0.8419 | 0.7805 | 0.2637 | 0.1296 | 0.1082 |
| MLP - Indicators Only | 0.8112 | 0.7321 | 0.1962 | 0.0949 | 0.0947 |
| LSTMs - Zeros | 0.8662 | 0.8133 | 0.2909 | 0.1557 | 0.1176 |
| LSTMs - Impute | 0.8600 | 0.8062 | 0.2967 | 0.1569 | 0.1159 |
| LSTMs - Zeros & Indicators | 0.8730 | 0.8250 | 0.3041 | 0.1656 | 0.1215 |
| LSTMs - Impute & Indicators | 0.8689 | 0.8206 | 0.3027 | 0.1609 | 0.1196 |
| LSTMs - Indicators Only | 0.8409 | 0.7834 | 0.2403 | 0.1291 | 0.1074 |
| Log Reg HE | 0.8396 | 0.7714 | 0.2708 | 0.1327 | 0.1118 |
| Log Reg HE + Indicators | 0.8472 | 0.7752 | 0.2841 | 0.1376 | 0.1165 |
| Log Reg HE Indicators Only | 0.8187 | 0.7322 | 0.2287 | 0.1001 | 0.1020 |
| MLP HE | 0.8599 | 0.8052 | 0.2953 | 0.1556 | 0.1168 |
| MLP HE + Indicators | 0.8669 | 0.8160 | 0.2954 | 0.1610 | 0.1202 |
| MLP HE Indicators Only | 0.8371 | 0.7682 | 0.2351 | 0.1179 | 0.1028 |
- ゼロ補完と欠測データ指標を組み合わせたLSTMが、総合的なマイクロAUC0.8730およびマクロAUC0.8250で最高を達成した。
- 欠測データ指標を追加することでRNN、MLP、および線形モデルの性能が向上し、特にニューラルモデルで最大の改善が見られた。
- 線形モデルは手作業で設計した欠測データ特徴から大きな恩恵を受け、一部の設定でニューラル網に近づいた。
- いくつかの診断では欠測パターンだけで高い予測信号を得られ、非ランダムな情報を含む欠測が有用であることを示している。
- RNNはゼロ埋め入力から欠測値を認識することを暗黙的に学習する可能性があり、データと欠測の間の複雑な相互作用を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。