[论文解读] CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines
CEHR-GPT 将患者时间线生成视为一种语言建模问题,使用新颖的时间保留的患者表示来合成可转换为 OMOP 且保留时间信息的时间序列 EHR 数据。
Synthetic Electronic Health Records (EHR) have emerged as a pivotal tool in advancing healthcare applications and machine learning models, particularly for researchers without direct access to healthcare data. Although existing methods, like rule-based approaches and generative adversarial networks (GANs), generate synthetic data that resembles real-world EHR data, these methods often use a tabular format, disregarding temporal dependencies in patient histories and limiting data replication. Recently, there has been a growing interest in leveraging Generative Pre-trained Transformers (GPT) for EHR data. This enables applications like disease progression analysis, population estimation, counterfactual reasoning, and synthetic data generation. In this work, we focus on synthetic data generation and demonstrate the capability of training a GPT model using a particular patient representation derived from CEHR-BERT, enabling us to generate patient sequences that can be seamlessly converted to the Observational Medical Outcomes Partnership (OMOP) data format.
研究动机与目标
- 通过生成合成的时间序列 EHR 数据来解决对 EHR 的隐私访问障碍。
- 保留时间依赖性和就诊级时间,以实现基于时间线的表型分析和下游分析。
- 实现合成序列到 OMOP 格式的无缝转换,便于传播和评估。
提出的方法
- 设计一个时间保留的患者表示(CEHR-GPT),在序列中对人口统计、就诊类型、时间戳和住院时间间隔进行编码。
- 利用带人工时间标记(ATT)和住院时间标记(IATT)的 OMOP 编码器将 OMOP 数据编码到患者序列中,以保留时间结构。
- 在这些序列上训练基于 GPT 的生成模型,使用下一个词预测来学习患者时间线的分布。
- 通过 OMOP 解码器将生成的序列转换回 OMOP 格式,保留用于下游评估的时间信息。
- 在维度分布、共现模式和跨多个队列的预测模型性能上评估合成数据。
- 与基线(CEHR-BERT、GPT-Vanilla、GPT-OUTPAT)进行比较,并评估隐私风险(成员身份和属性推断)。

实验结果
研究问题
- RQ1GPT 基于的模型是否能够从 OMOP-curated EHR 数据中学习并生成时间一致的患者时间线?
- RQ2与真实数据相比,合成时间线在时间结构、概念分布和共现模式上保存得有多好?
- RQ3在多个队列中针对合成 OMOP 数据训练的预测模型是否达到与在真实数据上训练的模型相似的性能?
- RQ4CEHR-GPT 产生的合成数据的隐私风险概况(成员身份和属性推断)如何?
- RQ5哪种患者表示和抽样策略在各任务上能够带来最佳数据实用性?
主要发现
| 人群 | 真实前值 | 真实AUC | 真实PR | p=95% 前值 | p=95% AUC | p=95% PR | p=100% 前值 | p=100% AUC | p=100% PR | k=100 前值 | k=100 AUC | k=100 PR | k=200 前值 | k=200 AUC | k=200 PR | k=300 前值 | k=300 AUC | k=300 PR | GPT-OUTPAT 前值 | GPT-OUTPAT AUC | GPT-OUTPAT PR | GPT-Vanilla 前值 | GPT-Vanilla AUC | GPT-Vanilla PR |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| HF readmission | 25.7 | 65.7 | 39.3 | 27.6 | 69.2 | 45.7 | 27.7 | 52.4 | 29.0 | 30.7 | 68.1 | 32.9 | 29.3 | 54.0 | 32.9 | 26.5 | 61.1 | 33.8 | 100.0 | NA | NA | NA | NA | NA |
| Hospitalization | 5.6 | 75.3 | 19.5 | 5.2 | 77.1 | 21.4 | 7.4 | 71.3 | 20.2 | 2.8 | 87.0 | 22.1 | 5.2 | 84.2 | 20.8 | 6.3 | 78.7 | 24.6 | 5.0 | NA | NA | NA | NA | NA |
| COPD readmission | 34.5 | 74.2 | 83.8 | 37.8 | 76.4 | 84.4 | 47.2 | 74.1 | 67.2 | 26.4 | 75.9 | 90.3 | 28.3 | 70.1 | 82.8 | 34.5 | 68.8 | 80.2 | NA | NA | NA | NA | NA | NA |
| Afib ischemic stroke | 8.7 | 84.0 | 48.5 | 10.2 | 78.9 | 41.2 | 10.4 | 70.7 | 39.1 | 16.6 | 77.1 | 50.5 | 15.8 | 68.9 | 36.6 | 10.8 | 76.8 | 38.5 | NA | NA | NA | NA | NA | NA |
| CAD CABG | 7.1 | 88.4 | 55.9 | 4.1 | 81.5 | 25.2 | 4.4 | 52.9 | 4.3 | 7.2 | 84.7 | 31.3 | 4.9 | 73.5 | 24.3 | 4.0 | 79.0 | 24.1 | NA | NA | NA | NA | NA | NA |
- 使用 CEHR-GPT 生成的合成时间线在若干采样策略下的概念分布与真实数据高度接近,特别是在维度层面的评估中,top_p=95% 与 top_p=100% 表现最好。
- 合成数据中的共现模式通常与真实数据一致,条件-条件和程序-程序对的对齐最强;药物相关共现显示出更多离散。
- 在多队列中,基于 CEHR-GPT 合成数据训练的预测模型(对 BOW 转换特征的逻辑回归)达到具有竞争力的 ROC-AUC 和 PR-AUC,其中 top_k=300 和 top_p=95% 的配置整体表现最好。
- CEHR-GPT 的替代表示(CEHR-BERT、OUTPAT 和 Vanilla 序列)在时间信息保留和数据实用性方面呈现出不同程度的效果,突出显式时间标记(ATT/IATT)对时间保真性的关键作用。
- 隐私评估包括成员身份和属性推断测试;本研究采用一种框架来量化潜在隐私泄露风险,尽管在摘录中未完全详细说明具体攻击结果。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。