QUICK REVIEW

[論文レビュー] Sparse Multi-Output Gaussian Processes for Medical Time Series Prediction

Lifang Cheng, Gregory Darnell|arXiv (Cornell University)|Mar 27, 2017

Machine Learning in Healthcare参考文献 41被引用数 24

ひとこと要約

本稿では、電子的健康記録（EHR）を用いて、臨床的コバリエートの時間的推定を正確かつリアルタイムで行うためのスパースなマルチアウトプットガウス過程フレームワーク、MedGPを提案する。構造的なスパースカーネルにスペクトルミックスチャネルを組み合わせ、誘導点を用いることで、数万の時系列ポイントにわたる非同期的でスパースかつ多様なEHRデータを処理し、sepsis、neoplasm、心不全のサブグループにまたがる8,043名の患者において、ベースラインと比較してより優れたオンライン補完精度と不確実性の定量化を達成した。

ABSTRACT

In the scenario of real-time monitoring of hospital patients, high-quality inference of patients' health status using all information available from clinical covariates and lab tests is essential to enable successful medical interventions and improve patient outcomes. Developing a computational framework that can learn from observational large-scale electronic health records (EHRs) and make accurate real-time predictions is a critical step. In this work, we develop and explore a Bayesian nonparametric model based on Gaussian process (GP) regression for hospital patient monitoring. We propose MedGP, a statistical framework that incorporates 24 clinical and lab covariates and supports a rich reference data set from which relationships between observed covariates may be inferred and exploited for high-quality inference of patient state over time. To do this, we develop a highly structured sparse GP kernel to enable tractable computation over tens of thousands of time points while estimating correlations among clinical covariates, patients, and periodicity in patient observations. MedGP has a number of benefits over current methods, including (i) not requiring an alignment of the time series data, (ii) quantifying confidence regions in the predictions, (iii) exploiting a vast and rich database of patients, and (iv) inferring interpretable relationships among clinical covariates. We evaluate and compare results from MedGP on the task of online prediction for three patient subgroups from two medical data sets across 8,043 patients. We found MedGP improves online prediction over baseline methods for nearly all covariates across different disease subgroups and studies. The publicly available code is at https://github.com/bee-hive/MedGP.

研究の動機と目的

大規模でスパースかつ非同期の電子的健康記録（EHR）を用いた、スケーラブルでベイジアン非パラメトリックなフレームワークを構築すること。
時間系列の同期化や欠損データの補完を必要とせず、24の臨床的および検査コバリエートの正確なオンライン予測を可能にすること。
予測の不確実性を定量化し、臨床時間系列における患者間の相関、コバリエート間の相関、周期性を活用すること。
歴史的EHRデータからの患者状態のダイナミクスをモデル化することで、sepsisなどの深刻な状態の早期診断を支援すること。

提案手法

MedGPは、スパースな構造的カーネルを用いたマルチアウトプットガウス過程であり、スパース推論を可能にするために、スペクトルミックスカーネルと誘導点による低ランク近似を組み合わせる。
カーネルは、周期性、長期的および短期的相関、24の臨床的および検査コバリエート間のクロスコバリエート依存性を組み込む。
変分推論と確率的最適化を用いて後方分布を近似し、数万の時系列ポイントにおける計算の tractability を確保する。
Q個の誘導点を用いたスパース近似により、計算複雑度をO(N³)からO(NQ²)に低下させ、ここでNは観測数、Q ≪ Nである。
新しいデータが到着するたびに後方分布を段階的に更新することで、再訓練なしにオンライン予測を実現する。
この手法はPythonで実装され、https://github.com/bee-hive/MedGP にて公開されている。

実験結果

リサーチクエスチョン

RQ1MedGPのようなベイジアン非パラメトリックモデルは、標準的なベースラインと比較して、スパースかつ非同期の臨床時間系列におけるオンライン補完精度を向上させることができるか？
RQ2ベーススケルの数（Q）の選択が、EHRのマルチアウトプットGPモデルにおける予測性能と不確実性のキャリブレーションに与える影響はいかほどか？
RQ3MedGPは、時間系列の同期化を必要とせず、患者レベルの相関や周期性をどれだけ活用して予測精度を向上させることができるか？
RQ4MedGPは、多様な患者サブグループおよび臨床的コバリエートにおいて、適切にキャリブレートされた不確実性推定（例：95％予測カバー率）を提供するか？
RQ5MedGPは、共通のリファレンスEHRデータベースを用いて、sepsis、neoplasms、心不全などの異なる疾患サブグループに一般化可能か？

主な発見

MedGPは、HUPおよびMIMIC-IIIデータセットの3つの患者サブグループ（sepsis、neoplasms、心不全）において、ほぼすべてのコバリエートでベースライン手法を上回るオンライン予測性能を示した。
HUPサブセットではQ=5、MIMIC-IIIサブセットではQ=4が最良の性能を示し、ベースラインと比較して補完における平均絶対誤差（MAE）を低減した。
INRやPTなどの検査コバリエートでは、Q=1またはQ=2に設定することでMAEが低減したが、Q=2を超えるとカバー率が向上したため、精度と不確実性キャリブレーションのトレードオフが生じていることが示された。
MedGPは、大多数のコバリエートで95％の予測カバー率を維持した。カバー率プロット（図26–33）における赤破線は、モデルの不確実性区間が適切にキャリブレートされていることを示している。
大規模なEHRデータセット（例：29,525観測）において、GPyと比較して最大2.5倍速く実行され、スパースカーネル近似によるスケーラビリティを示した。
フレームワークは、時間系列の同期化や明示的な補完を必要とせず、信頼性のある信頼領域を定量化し、臨床的コバリエート間の解釈可能な関係を同定できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。