QUICK REVIEW

[論文レビュー] Deep Survival Analysis

Rajesh Ranganath, Adler Perotte|arXiv (Cornell University)|Aug 6, 2016

Machine Learning in Healthcare参考文献 25被引用数 78

ひとこと要約

本論文では、深層指数型族を用いて、時間的非同期なEHRデータ（生命徴収値、検査値、薬剤、診断）を統合的にモデリングするベイジアン階層モデル、すなわちディープサバイバル分析を提案する。患者を任意の時間ゼロではなく、イベント発生時刻に揃えることで、従来の生存分析の限界を克服する。313,000名の患者を対象としたCHDリスク予測タスクにおいて、73.11%のコンcordanceを達成し、臨床分野のゴールドスタンダードであるフレームハムリスクスコアを上回り、リスクストラティフィケーションの優位性と欠損データに対するロバストネスを示した。

ABSTRACT

The electronic health record (EHR) provides an unprecedented opportunity to build actionable tools to support physicians at the point of care. In this paper, we investigate survival analysis in the context of EHR data. We introduce deep survival analysis, a hierarchical generative approach to survival analysis. It departs from previous approaches in two primary ways: (1) all observations, including covariates, are modeled jointly conditioned on a rich latent structure; and (2) the observations are aligned by their failure time, rather than by an arbitrary time zero as in traditional survival analysis. Further, it (3) scalably handles heterogeneous (continuous and discrete) data types that occur in the EHR. We validate deep survival analysis model by stratifying patients according to risk of developing coronary heart disease (CHD). Specifically, we study a dataset of 313,000 patients corresponding to 5.5 million months of observations. When compared to the clinically validated Framingham CHD risk score, deep survival analysis is significantly superior in stratifying patients according to their risk.

研究の動機と目的

従来の生存分析が欠損データ、異種データ、非同期なEHRデータを扱う際の限界を解消すること。
共変量と生存時間の両方を深層潜在構造を用いて統合的にモデリングするスケーラブルな生成モデルの開発。
臨床的に妥当性が確認されたベンチマークを上回る、実世界のEHRデータを用いた虚血性心疾患（CHD）リスクストラティフィケーションの向上。
不完全で不規則にサンプリングされたEHR観測値が存在する状況下でも、正確な時系列予測を可能にすること。

提案手法

共変量とイベント発生時刻の間の非線形な依存関係を捉えるために、深層指数型族（DEF）を深層潜在変数モデルとして用いる。
すべての患者をそのイベント発生時刻（または打ち切り時刻）に揃えることで、従来の生存分析で用いられる任意の時間ゼロへの揃え方を回避する。
ベイジアンフレームワーク内で、観測値（共変量）、打ち切り状態、イベント発生時刻を統合的にモデリングすることで、欠損データを自然に扱う。
大規模なEHRデータ上で効率的な学習を可能にするために、スケーラブルな変分推論を採用し、エンドツーエンド学習を実現する。
DEFフレームワーク内での共有潜在表現を通じて、生命徴収値、検査値、薬剤、診断コードといった異種のデータタイプを統合的にモデリングする。
時系列予測の正確性とリスクストラティフィケーションのパフォーマンスを評価するために、予測尤度とコンコードランスを評価指標として用いる。

実験結果

リサーチクエスチョン

RQ1従来の生存分析と比較して、異種のEHRデータと生存結果を統合的にモデリングする深層生成モデルは、より効果的に機能するか？
RQ2時間ゼロではなく、イベント発生時刻に患者を揃えることで、EHRベースの生存モデリングにおけるリスク予測精度が向上するか？
RQ3ディープサバイバル分析は、臨床的に妥当性が確認されたフレームハムCHDリスクスコアを上回り、虚血性心疾患のリスクに応じた患者のストラティフィケーションを実現できるか？
RQ4診断コード、検査値、薬剤などの異なるEHRデータタイプの組み込みが、予測性能にどのように寄与するか？
RQ5本モデルは、実世界のEHRにおける欠損データや不規則な観測パターンに対して、どの程度耐性を示すか？

主な発見

ホールドアウトテストセット（25,000名）において、ディープサバイバル分析は73.11%のコンコードランスを達成し、ベースラインのフレームハムリスクスコア（65.57%）を顕著に上回った。
K=50の潜在次元数が最良のパフォーマンスを示し、モデルの複雑さと予測精度の最適なトレードオフを示した。
個々のデータタイプの中で、診断コードのみが最高の予測尤度（-0.855385）を示し、CHDリスクに対する強力な予測力を持つことが示された。
ベイジアン潜在構造のおかげで、欠損データに対して自然にロバストであることが確認され、不完全な観測値を効果的に処理できた。
人工的なデータ補完や揃え方の操作なしに、スパarsな異種EHRデータで学習させても、優れたリスクストラティフィケーションを達成した。
内部妥当性評価により、潜在次元数が増加するにつれて予測尤度が向上し、K=50でピークに達することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。