Skip to main content
QUICK REVIEW

[論文レビュー] CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines

Chao Pang, Xinzhuo Jiang|arXiv (Cornell University)|Feb 6, 2024
Machine Learning in Healthcare被引用数 6
ひとこと要約

CEHR-GPT は、時系列を保つ新規の患者表現を用いて患者のタイムライン生成を言語モデリング問題として扱い、時間情報を保持したまま OMOP に変換可能な時系列 EHR データを合成します。

ABSTRACT

Synthetic Electronic Health Records (EHR) have emerged as a pivotal tool in advancing healthcare applications and machine learning models, particularly for researchers without direct access to healthcare data. Although existing methods, like rule-based approaches and generative adversarial networks (GANs), generate synthetic data that resembles real-world EHR data, these methods often use a tabular format, disregarding temporal dependencies in patient histories and limiting data replication. Recently, there has been a growing interest in leveraging Generative Pre-trained Transformers (GPT) for EHR data. This enables applications like disease progression analysis, population estimation, counterfactual reasoning, and synthetic data generation. In this work, we focus on synthetic data generation and demonstrate the capability of training a GPT model using a particular patient representation derived from CEHR-BERT, enabling us to generate patient sequences that can be seamlessly converted to the Observational Medical Outcomes Partnership (OMOP) data format.

研究の動機と目的

  • EHR アクセスのプライバシー障壁を、合成時系列 EHR データの生成によって解消する。
  • 時間的依存関係と訪問レベルのタイミングを preserve し、タイムラインベースの表現型測定と下流解析を可能にする。
  • 合成シーケンスを OMOP 形式へシームレスに変換できるようにして、普及と評価を容易にする。

提案手法

  • 時系列を保持する患者表現(CEHR-GPT)を設計し、デモグラフィック情報、訪問タイプ、タイムスタンプ、入院間隔をシーケンス内にエンコードする。
  • OMOP データを人工時刻トークン(ATT)と入院時刻トークン(IATT)を用いた OMOP エンコーダーで患者シーケンスへエンコードし、時間構造を保持する。
  • これらのシーケンス上で次単語予測を用いて GPT ベースの生成モデルを学習させ、患者のタイムライン分布を獲得する。
  • 生成されたシーケンスを OMOP デコーダーを介して OMOP 形式へ戻し、下流の評価のための時間情報を保持する。
  • 複数コホートにわたる次元別分布、共起パターン、および予測モデル性能を用いて合成データを評価する。
  • ベースライン(CEHR-BERT、GPT-Vanilla、GPT-OUTPAT)と比較し、プライバシーリスク(メンバーシップおよび属性推論)を評価する。
Figure 2 : The patient representation preserves demographics, visit types, and temporal intervals between visits and inpatient duration. It’s designed to have the demographic prompt at the beginning including year at the first visit, age at the first visit, gender and race tokens, then followed by a
Figure 2 : The patient representation preserves demographics, visit types, and temporal intervals between visits and inpatient duration. It’s designed to have the demographic prompt at the beginning including year at the first visit, age at the first visit, gender and race tokens, then followed by a

実験結果

リサーチクエスチョン

  • RQ1GPT ベースのモデルは OMOP で整理された EHR データから temporally coherent な患者タイムラインを学習・生成できるか。
  • RQ2合成タイムラインは実データと比較して時間構造、概念分布、共起パターンをどの程度保持するか。
  • RQ3実データで学習した予測モデルと同等の性能を、合成 OMOP データを用いて複数コホートで達成できるか。
  • RQ4CEHR-GPT が生成する合成データのプライバシーリスク(メンバーシップおよび属性推論)のプロフィールはどうか。
  • RQ5どの患者表現とサンプリング戦略がタスク全体でデータ有用性を最も高めるか。

主な発見

CohortReal PreReal AUCReal PRp=95% Prep=95% AUCp=95% PRp=100% Prep=100% AUCp=100% PRk=100 Prek=100 AUCk=100 PRk=200 Prek=200 AUCk=200 PRk=300 Prek=300 AUCk=300 PRGPT-OUTPAT PreGPT-OUTPAT AUCGPT-OUTPAT PRGPT-Vanilla PreGPT-Vanilla AUCGPT-Vanilla PR
HF readmission25.765.739.327.669.245.727.752.429.030.768.132.929.354.032.926.561.133.8100.0NANANANANA
Hospitalization5.675.319.55.277.121.47.471.320.22.887.022.15.284.220.86.378.724.65.0NANANANANA
COPD readmission34.574.283.837.876.484.447.274.167.226.475.990.328.370.182.834.568.880.2NANANANANANA
Afib ischemic stroke8.784.048.510.278.941.210.470.739.116.677.150.515.868.936.610.876.838.5NANANANANANA
CAD CABG7.188.455.94.181.525.24.452.94.37.284.731.34.973.524.34.079.024.1NANANANANANA
  • CEHR-GPT で生成された合成タイムラインは、複数のサンプリング戦略で実データの概念分布に密接に一致し、特に dimension-wise 評価では top_p=95% および top_p=100% が最も一致。
  • 合成データの共起パターンは概ね実データを反映し、条件-条件および処置-処置の組み合わせで最も整合性が高い。一方、薬剤関連の共起は分散が大きい。
  • CEHR-GPT 合成データで学習した予測モデル(BOW 変換特徴量上のロジスティック回帰)は、複数コホートで競争力の ROC-AUC および PR-AUC を達成し、top_k=300 および top_p=95% の設定が全体的に最良。
  • CEHR-GPT の代替表現(CEHR-BERT、OUTPAT、Vanilla シーケンス)は、時間情報保持とデータ有用性の点で異なる度合いを示し、時間トークン(ATT/IATT)の明示的な重要性を浮き彫りにしている。
  • プライバシー評価にはメンバーシップおよび属性推論テストを含み、潜在的なプライバシー侵害を定量化する枠組みを採用しているが、特定の攻撃結果は抜粋内で完全には詳述されていない。
CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。