[论文解读] Self-Supervised Graph Learning with Hyperbolic Embedding for Temporal Health Event Prediction
Sherbet 提出了一种自监督图学习框架,结合双曲嵌入以提升基于电子健康记录(EHR)的时序健康事件预测性能。该方法通过一种新颖的双曲嵌入方法结合信息流,利用疾病层级结构,构建加权有向疾病交互图,并采用多级注意力机制,实现通用可解释性与个性化可解释性,显著提升了在公开 EHR 数据集上的预测性能,同时充分利用了未标注数据。
Electronic Health Records (EHR) have been heavily used in modern healthcare systems for recording patients' admission information to hospitals. Many data-driven approaches employ temporal features in EHR for predicting specific diseases, readmission times, or diagnoses of patients. However, most existing predictive models cannot fully utilize EHR data, due to an inherent lack of labels in supervised training for some temporal events. Moreover, it is hard for existing works to simultaneously provide generic and personalized interpretability. To address these challenges, we first propose a hyperbolic embedding method with information flow to pre-train medical code representations in a hierarchical structure. We incorporate these pre-trained representations into a graph neural network to detect disease complications, and design a multi-level attention method to compute the contributions of particular diseases and admissions, thus enhancing personalized interpretability. We present a new hierarchy-enhanced historical prediction proxy task in our self-supervised learning framework to fully utilize EHR data and exploit medical domain knowledge. We conduct a comprehensive set of experiments and case studies on widely used publicly available EHR datasets to verify the effectiveness of our model. The results demonstrate our model's strengths in both predictive tasks and interpretable abilities.
研究动机与目标
- 为解决在时序事件预测中因标签稀缺导致的 EHR 数据利用不足问题。
- 利用医疗编码结构(如 ICD-9-CM)以实现更优的疾病表征学习。
- 通过加权有向疾病交互图建模疾病并发症与相互作用。
- 同时提供通用可解释性(疾病层面模式)与个性化可解释性(患者层面贡献)。
- 设计一种自监督代理任务,通过分层预测历史诊断,充分利用所有就诊记录,包括单次就诊和最终就诊。
提出的方法
- 提出一种结合信息流的双曲嵌入方法,利用 ICD-9-CM 编码的分层结构预训练医疗编码表征。
- 基于患者就诊记录中的共现模式,构建加权有向疾病交互图。
- 在疾病交互图上应用图神经网络(GNN),以学习疾病并发症模式与隐式表征。
- 引入多级注意力机制,计算编码级别(疾病)与就诊级别对预测的贡献,实现个性化可解释性。
- 在自监督学习中设计一种增强层级结构的历史预测代理任务,为所有就诊(包括单次就诊和最终就诊)生成标签。
- 将自监督预训练与微调模块集成,用于下游时序预测任务(如诊断预测)。
实验结果
研究问题
- RQ1一种分层预测历史诊断的自监督代理任务,能否提升未标注 EHR 数据的利用率?
- RQ2双曲嵌入能否有效建模医疗编码的分层结构,同时保持语义相似性?
- RQ3加权有向疾病交互图能否捕捉临床相关的疾病并发症?
- RQ4多级注意力机制能否同时实现基于 EHR 预测的通用与个性化可解释性?
- RQ5整合分层结构、疾病交互与自监督预训练,能否提升时序健康事件预测的性能?
主要发现
- Sherbet 在多个 EHR 基准数据集上实现了诊断预测的最先进性能,优于现有监督与自监督模型。
- t-SNE 可视化显示,模型有效捕捉了疾病并发症,相关疾病(如高血压与心力衰竭)在双曲空间中被紧密聚集。
- 模型能基于不同并发症区分疾病亚型(如 I 型与 II 型糖尿病),表明其表征学习具有实际意义。
- 多级注意力可视化证实,模型能量化特定疾病与就诊对预测的贡献,且较高注意力权重与临床上合理的因果路径一致。
- 自监督代理任务通过为预训练生成合成标签,实现了对 EHR 数据的全面利用,包括单次就诊与最终就诊。
- 案例研究显示,Sherbet 同时提供通用可解释性(如疾病共病模式)与个性化可解释性(如既往就诊对后续诊断的贡献),增强了临床信任。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。