Skip to main content
QUICK REVIEW

[论文解读] Temporal Phenotyping using Deep Predictive Clustering of Disease Progression

Chang‐Hee Lee, Mihaela van der Schaar|arXiv (Cornell University)|Jun 15, 2020
Machine Learning in Healthcare参考文献 3被引用 28
一句话总结

本文提出AC-TPC,一种用于时间预测聚类的深度学习框架,通过基于KL散度的聚类损失,采用联合编码器-选择器-预测器架构,根据患者共享的未来疾病结局对患者进行分组。该模型在真实世界EHR数据集上实现了最先进性能,通过可解释、结果同质的聚类,实现了动态、实时的表型分析,支持可操作的临床决策制定。

ABSTRACT

Due to the wider availability of modern electronic health records, patient care data is often being stored in the form of time-series. Clustering such time-series data is crucial for patient phenotyping, anticipating patients' prognoses by identifying "similar" patients, and designing treatment guidelines that are tailored to homogeneous patient subgroups. In this paper, we develop a deep learning approach for clustering time-series data, where each cluster comprises patients who share similar future outcomes of interest (e.g., adverse events, the onset of comorbidities). To encourage each cluster to have homogeneous future outcomes, the clustering is carried out by learning discrete representations that best describe the future outcome distribution based on novel loss functions. Experiments on two real-world datasets show that our model achieves superior clustering performance over state-of-the-art benchmarks and identifies meaningful clusters that can be translated into actionable information for clinical decision-making.

研究动机与目标

  • 为解决EHR数据中无监督聚类的局限性,即尽管临床轨迹相似,但聚类结果常呈现结果异质性。
  • 开发一种方法,不仅根据过去观察的相似性聚类患者,更根据预测的未来结果同质性(如共病或不良事件)进行聚类。
  • 实现动态、实时的表型分析,使聚类分配随新临床数据的获取而更新,反映最新的预后预期。
  • 通过识别具有不同、可解释的未来风险特征的亚组,将聚类输出转化为可操作的临床洞察。

提出的方法

  • 该模型采用三网络架构:编码器将时间序列EHR数据映射为连续潜在表征,选择器基于这些表征分配离散聚类标签,预测器则估计未来结果的概率分布。
  • 定义了一种新颖的聚类目标,使用预测器在输入时间序列与所选聚类中心条件下的输出之间的Kullback-Leibler(KL)散度,促进聚类内部的结果同质性。
  • 将预测聚类建模为迭代优化问题,交替更新聚类分配(通过选择器)和优化聚类中心候选。
  • 通过演员-评论家强化学习实现离散选择器的反向传播,克服聚类中离散采样不可微的问题。
  • 通过建模结果组合的联合概率分布,支持高维未来结果(如多种共病)的建模。
  • 通过结合预测准确性和聚类同质性的复合损失端到端训练模型,确保聚类反映临床有意义的预后模式。

实验结果

研究问题

  • RQ1深度预测聚类能否在识别EHR数据中具有同质未来疾病结局的患者亚组方面,优于最先进的无监督聚类方法?
  • RQ2当新临床数据可用时,该模型在多大程度上能动态实时更新患者表型?
  • RQ3该模型识别出的聚类是否对应于具有不同共病特征和预后风险的临床可解释表型?
  • RQ4该模型的聚类输出在多大程度上可转化为临床决策支持的可操作洞察?
  • RQ5该模型在高维结果空间(如一年内联合预测多种共病)下的鲁棒性如何?

主要发现

  • AC-TPC在两个真实世界EHR数据集上相比最先进基线模型实现了更优的聚类性能,证明了每类中预测未来结果的同质性显著提升。
  • 该模型成功在囊性纤维化队列中识别出11种不同的时间表型,每种表型均具有独特且可解释的共病特征与未来风险概率。
  • 患者表型随时间动态演变:例如,一名初始被分配至哮喘风险较低的糖尿病与ABPA患者,随着新数据出现,其聚类分配逐渐转向哮喘与糖尿病风险较高的聚类。
  • 该模型的聚类分配与临床预期一致——例如,当患者出现新共病时,会被重新分配至反映其更新后预后特征的聚类。
  • 例如,聚类8表现出高概率的糖尿病(0.94)和肝病(0.83),表明该亚组存在肝相关并发症的高风险。
  • 该模型处理高维结果空间的能力,使其即使在预测多种共病组合时,也能识别出具有临床意义的亚组。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。