[論文レビュー] CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines
CEHR-GPT は、時系列を保つ新規の患者表現を用いて患者のタイムライン生成を言語モデリング問題として扱い、時間情報を保持したまま OMOP に変換可能な時系列 EHR データを合成します。
Synthetic Electronic Health Records (EHR) have emerged as a pivotal tool in advancing healthcare applications and machine learning models, particularly for researchers without direct access to healthcare data. Although existing methods, like rule-based approaches and generative adversarial networks (GANs), generate synthetic data that resembles real-world EHR data, these methods often use a tabular format, disregarding temporal dependencies in patient histories and limiting data replication. Recently, there has been a growing interest in leveraging Generative Pre-trained Transformers (GPT) for EHR data. This enables applications like disease progression analysis, population estimation, counterfactual reasoning, and synthetic data generation. In this work, we focus on synthetic data generation and demonstrate the capability of training a GPT model using a particular patient representation derived from CEHR-BERT, enabling us to generate patient sequences that can be seamlessly converted to the Observational Medical Outcomes Partnership (OMOP) data format.
研究の動機と目的
- EHR アクセスのプライバシー障壁を、合成時系列 EHR データの生成によって解消する。
- 時間的依存関係と訪問レベルのタイミングを preserve し、タイムラインベースの表現型測定と下流解析を可能にする。
- 合成シーケンスを OMOP 形式へシームレスに変換できるようにして、普及と評価を容易にする。
提案手法
- 時系列を保持する患者表現(CEHR-GPT)を設計し、デモグラフィック情報、訪問タイプ、タイムスタンプ、入院間隔をシーケンス内にエンコードする。
- OMOP データを人工時刻トークン(ATT)と入院時刻トークン(IATT)を用いた OMOP エンコーダーで患者シーケンスへエンコードし、時間構造を保持する。
- これらのシーケンス上で次単語予測を用いて GPT ベースの生成モデルを学習させ、患者のタイムライン分布を獲得する。
- 生成されたシーケンスを OMOP デコーダーを介して OMOP 形式へ戻し、下流の評価のための時間情報を保持する。
- 複数コホートにわたる次元別分布、共起パターン、および予測モデル性能を用いて合成データを評価する。
- ベースライン(CEHR-BERT、GPT-Vanilla、GPT-OUTPAT)と比較し、プライバシーリスク(メンバーシップおよび属性推論)を評価する。

実験結果
リサーチクエスチョン
- RQ1GPT ベースのモデルは OMOP で整理された EHR データから temporally coherent な患者タイムラインを学習・生成できるか。
- RQ2合成タイムラインは実データと比較して時間構造、概念分布、共起パターンをどの程度保持するか。
- RQ3実データで学習した予測モデルと同等の性能を、合成 OMOP データを用いて複数コホートで達成できるか。
- RQ4CEHR-GPT が生成する合成データのプライバシーリスク(メンバーシップおよび属性推論)のプロフィールはどうか。
- RQ5どの患者表現とサンプリング戦略がタスク全体でデータ有用性を最も高めるか。
主な発見
| Cohort | Real Pre | Real AUC | Real PR | p=95% Pre | p=95% AUC | p=95% PR | p=100% Pre | p=100% AUC | p=100% PR | k=100 Pre | k=100 AUC | k=100 PR | k=200 Pre | k=200 AUC | k=200 PR | k=300 Pre | k=300 AUC | k=300 PR | GPT-OUTPAT Pre | GPT-OUTPAT AUC | GPT-OUTPAT PR | GPT-Vanilla Pre | GPT-Vanilla AUC | GPT-Vanilla PR |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| HF readmission | 25.7 | 65.7 | 39.3 | 27.6 | 69.2 | 45.7 | 27.7 | 52.4 | 29.0 | 30.7 | 68.1 | 32.9 | 29.3 | 54.0 | 32.9 | 26.5 | 61.1 | 33.8 | 100.0 | NA | NA | NA | NA | NA |
| Hospitalization | 5.6 | 75.3 | 19.5 | 5.2 | 77.1 | 21.4 | 7.4 | 71.3 | 20.2 | 2.8 | 87.0 | 22.1 | 5.2 | 84.2 | 20.8 | 6.3 | 78.7 | 24.6 | 5.0 | NA | NA | NA | NA | NA |
| COPD readmission | 34.5 | 74.2 | 83.8 | 37.8 | 76.4 | 84.4 | 47.2 | 74.1 | 67.2 | 26.4 | 75.9 | 90.3 | 28.3 | 70.1 | 82.8 | 34.5 | 68.8 | 80.2 | NA | NA | NA | NA | NA | NA |
| Afib ischemic stroke | 8.7 | 84.0 | 48.5 | 10.2 | 78.9 | 41.2 | 10.4 | 70.7 | 39.1 | 16.6 | 77.1 | 50.5 | 15.8 | 68.9 | 36.6 | 10.8 | 76.8 | 38.5 | NA | NA | NA | NA | NA | NA |
| CAD CABG | 7.1 | 88.4 | 55.9 | 4.1 | 81.5 | 25.2 | 4.4 | 52.9 | 4.3 | 7.2 | 84.7 | 31.3 | 4.9 | 73.5 | 24.3 | 4.0 | 79.0 | 24.1 | NA | NA | NA | NA | NA | NA |
- CEHR-GPT で生成された合成タイムラインは、複数のサンプリング戦略で実データの概念分布に密接に一致し、特に dimension-wise 評価では top_p=95% および top_p=100% が最も一致。
- 合成データの共起パターンは概ね実データを反映し、条件-条件および処置-処置の組み合わせで最も整合性が高い。一方、薬剤関連の共起は分散が大きい。
- CEHR-GPT 合成データで学習した予測モデル(BOW 変換特徴量上のロジスティック回帰)は、複数コホートで競争力の ROC-AUC および PR-AUC を達成し、top_k=300 および top_p=95% の設定が全体的に最良。
- CEHR-GPT の代替表現(CEHR-BERT、OUTPAT、Vanilla シーケンス)は、時間情報保持とデータ有用性の点で異なる度合いを示し、時間トークン(ATT/IATT)の明示的な重要性を浮き彫りにしている。
- プライバシー評価にはメンバーシップおよび属性推論テストを含み、潜在的なプライバシー侵害を定量化する枠組みを採用しているが、特定の攻撃結果は抜粋内で完全には詳述されていない。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。