[논문 리뷰] CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines
CEHR-GPT는 시간 정보를 보존하는 새로운 환자 표현을 사용하여 시간 시계열 EHR 데이터를 합성하고 OMOP으로 변환 가능하도록 환자 타임라인 생성을 언어 모델링 문제로 다룬다.
Synthetic Electronic Health Records (EHR) have emerged as a pivotal tool in advancing healthcare applications and machine learning models, particularly for researchers without direct access to healthcare data. Although existing methods, like rule-based approaches and generative adversarial networks (GANs), generate synthetic data that resembles real-world EHR data, these methods often use a tabular format, disregarding temporal dependencies in patient histories and limiting data replication. Recently, there has been a growing interest in leveraging Generative Pre-trained Transformers (GPT) for EHR data. This enables applications like disease progression analysis, population estimation, counterfactual reasoning, and synthetic data generation. In this work, we focus on synthetic data generation and demonstrate the capability of training a GPT model using a particular patient representation derived from CEHR-BERT, enabling us to generate patient sequences that can be seamlessly converted to the Observational Medical Outcomes Partnership (OMOP) data format.
연구 동기 및 목표
- 합성 시간 시리즈 EHR 데이터를 생성하여 EHR 접근의 개인정보 장벽을 해소한다.
- 시간 의존성 및 방문 수준 타이밍을 보존하여 타임라인 기반 표현형화 및 후속 분석을 가능하게 한다.
- 합성 시퀀스를 OMOP 형식으로 원활하게 변환하여 쉽게 확산 및 평가할 수 있게 한다.
제안 방법
- 인구통계, 방문 유형, 타임스탬프, 입원 간격을 시퀀스 내에 인코딩하는 시간 정보를 보존하는 환자 표현(CEHR-GPT)을 설계한다.
- 인공 시간 토큰(ATT)과 입원 시간 토큰(IATT)을 사용한 OMOP 인코더로 OMOP 데이터를 환자 시퀀스로 인코딩하여 시간 구조를 유지한다.
- 다음 단어 예측을 사용하여 이 시퀀스들에서 GPT 기반 생성 모델을 훈련시켜 환자 타임라인의 분포를 학습한다.
- 생성된 시퀀스를 OMOP 디코더를 통해 OMOP 형식으로 다시 변환하여 후속 평가를 위한 시간 정보를 보존한다.
- 다양한 코호트에서 차원별 분포, 동시발현 패턴, 예측 모델 성능 등으로 합성 데이터를 평가한다.
- 베이스라인(CEHR-BERT, GPT-Vanilla, GPT-OUTPAT)과 비교하고 개인정보 위험(구성원 추론 및 속성 추론)을 평가한다.

실험 결과
연구 질문
- RQ1GPT 기반 모델이 OMOP 선별된 EHR 데이터로부터 시간적으로 일관된 환자 타임라인을 학습하고 생성할 수 있는가?
- RQ2합성 타임라인이 실제 데이터에 비해 시간 구조, 개념 분포, 동시발현 패턴을 얼마나 잘 보존하는가?
- RQ3합성 OMOP 데이터로 학습된 예측 모델이 여러 코호트에서 실제 데이터로 학습된 모델과 비슷한 성능을 보이는가?
- RQ4CEHR-GPT가 생성한 합성 데이터의 개인정보 위험 프로파일(구성원 추론 및 속성 추론)은 어떤가?
- RQ5어떤 환자 표현과 샘플링 전략이 작업들 전반에서 최상의 데이터 활용도를 제공하는가?
주요 결과
| 코호트 | 실제 Pre | 실제 AUC | 실제 PR | p=95% Pre | p=95% AUC | p=95% PR | p=100% Pre | p=100% AUC | p=100% PR | k=100 Pre | k=100 AUC | k=100 PR | k=200 Pre | k=200 AUC | k=200 PR | k=300 Pre | k=300 AUC | k=300 PR | GPT-OUTPAT Pre | GPT-OUTPAT AUC | GPT-OUTPAT PR | GPT-Vanilla Pre | GPT-Vanilla AUC | GPT-Vanilla PR |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| HF readmission | 25.7 | 65.7 | 39.3 | 27.6 | 69.2 | 45.7 | 27.7 | 52.4 | 29.0 | 30.7 | 68.1 | 32.9 | 29.3 | 54.0 | 32.9 | 26.5 | 61.1 | 33.8 | 100.0 | NA | NA | NA | NA | NA |
| Hospitalization | 5.6 | 75.3 | 19.5 | 5.2 | 77.1 | 21.4 | 7.4 | 71.3 | 20.2 | 2.8 | 87.0 | 22.1 | 5.2 | 84.2 | 20.8 | 6.3 | 78.7 | 24.6 | 5.0 | NA | NA | NA | NA | NA |
| COPD readmission | 34.5 | 74.2 | 83.8 | 37.8 | 76.4 | 84.4 | 47.2 | 74.1 | 67.2 | 26.4 | 75.9 | 90.3 | 28.3 | 70.1 | 82.8 | 34.5 | 68.8 | 80.2 | NA | NA | NA | NA | NA | NA |
| Afib ischemic stroke | 8.7 | 84.0 | 48.5 | 10.2 | 78.9 | 41.2 | 10.4 | 70.7 | 39.1 | 16.6 | 77.1 | 50.5 | 15.8 | 68.9 | 36.6 | 10.8 | 76.8 | 38.5 | NA | NA | NA | NA | NA | NA |
| CAD CABG | 7.1 | 88.4 | 55.9 | 4.1 | 81.5 | 25.2 | 4.4 | 52.9 | 4.3 | 7.2 | 84.7 | 31.3 | 4.9 | 73.5 | 24.3 | 4.0 | 79.0 | 24.1 | NA | NA | NA | NA | NA | NA |
- CEHR-GPT로 생성된 합성 타임라인은 여러 샘플링 전략에서 실제 개념 분포에 밀접하게 일치하며, 차원별 평가에서 특히 top_p=95% 및 top_p=100%에서 그렇다.
- 합성 데이터의 동시발현 패턴은 일반적으로 실제 데이터를 반영하며, 질환-질환 및 절차-절차 쌍에서 가장 큰 일치를 보인다; 약물 관련 동시발현은 더 분산된다.
- CEHR-GPT 합성 데이터로 학습된 예측 모델(피처를 BOW로 변환한 로지스틱 회귀)은 여러 코호트에서 경쟁력 있는 ROC-AUC 및 PR-AUC를 달성하며, top_k=300 및 top_p=95% 구성이 전반적으로 최상이다.
- CEHR-GPT의 대체 표현들(CEHR-BERT, OUTPAT, 및 Vanilla 시퀀스)은 시간 정보 보존 및 데이터 활용도에서 다양한 정도를 보이며, 시간 충실도를 위해 명시적 시간 토큰(ATT/IATT)의 중요성을 강조한다.
- 개인정보 평가에는 구성원 추론 및 속성 추론 테스트가 포함되며, 잠재적 개인정보 침해를 정량화하는 프레임워크를 채택하지만, 본 발췌문에서 특정 공격 결과는 모두 자세히 제시되지는 않았다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.