Skip to main content
QUICK REVIEW

[논문 리뷰] CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines

Chao Pang, Xinzhuo Jiang|arXiv (Cornell University)|2024. 02. 06.
Machine Learning in Healthcare인용 수 6
한 줄 요약

CEHR-GPT는 시간 정보를 보존하는 새로운 환자 표현을 사용하여 시간 시계열 EHR 데이터를 합성하고 OMOP으로 변환 가능하도록 환자 타임라인 생성을 언어 모델링 문제로 다룬다.

ABSTRACT

Synthetic Electronic Health Records (EHR) have emerged as a pivotal tool in advancing healthcare applications and machine learning models, particularly for researchers without direct access to healthcare data. Although existing methods, like rule-based approaches and generative adversarial networks (GANs), generate synthetic data that resembles real-world EHR data, these methods often use a tabular format, disregarding temporal dependencies in patient histories and limiting data replication. Recently, there has been a growing interest in leveraging Generative Pre-trained Transformers (GPT) for EHR data. This enables applications like disease progression analysis, population estimation, counterfactual reasoning, and synthetic data generation. In this work, we focus on synthetic data generation and demonstrate the capability of training a GPT model using a particular patient representation derived from CEHR-BERT, enabling us to generate patient sequences that can be seamlessly converted to the Observational Medical Outcomes Partnership (OMOP) data format.

연구 동기 및 목표

  • 합성 시간 시리즈 EHR 데이터를 생성하여 EHR 접근의 개인정보 장벽을 해소한다.
  • 시간 의존성 및 방문 수준 타이밍을 보존하여 타임라인 기반 표현형화 및 후속 분석을 가능하게 한다.
  • 합성 시퀀스를 OMOP 형식으로 원활하게 변환하여 쉽게 확산 및 평가할 수 있게 한다.

제안 방법

  • 인구통계, 방문 유형, 타임스탬프, 입원 간격을 시퀀스 내에 인코딩하는 시간 정보를 보존하는 환자 표현(CEHR-GPT)을 설계한다.
  • 인공 시간 토큰(ATT)과 입원 시간 토큰(IATT)을 사용한 OMOP 인코더로 OMOP 데이터를 환자 시퀀스로 인코딩하여 시간 구조를 유지한다.
  • 다음 단어 예측을 사용하여 이 시퀀스들에서 GPT 기반 생성 모델을 훈련시켜 환자 타임라인의 분포를 학습한다.
  • 생성된 시퀀스를 OMOP 디코더를 통해 OMOP 형식으로 다시 변환하여 후속 평가를 위한 시간 정보를 보존한다.
  • 다양한 코호트에서 차원별 분포, 동시발현 패턴, 예측 모델 성능 등으로 합성 데이터를 평가한다.
  • 베이스라인(CEHR-BERT, GPT-Vanilla, GPT-OUTPAT)과 비교하고 개인정보 위험(구성원 추론 및 속성 추론)을 평가한다.
Figure 2 : The patient representation preserves demographics, visit types, and temporal intervals between visits and inpatient duration. It’s designed to have the demographic prompt at the beginning including year at the first visit, age at the first visit, gender and race tokens, then followed by a
Figure 2 : The patient representation preserves demographics, visit types, and temporal intervals between visits and inpatient duration. It’s designed to have the demographic prompt at the beginning including year at the first visit, age at the first visit, gender and race tokens, then followed by a

실험 결과

연구 질문

  • RQ1GPT 기반 모델이 OMOP 선별된 EHR 데이터로부터 시간적으로 일관된 환자 타임라인을 학습하고 생성할 수 있는가?
  • RQ2합성 타임라인이 실제 데이터에 비해 시간 구조, 개념 분포, 동시발현 패턴을 얼마나 잘 보존하는가?
  • RQ3합성 OMOP 데이터로 학습된 예측 모델이 여러 코호트에서 실제 데이터로 학습된 모델과 비슷한 성능을 보이는가?
  • RQ4CEHR-GPT가 생성한 합성 데이터의 개인정보 위험 프로파일(구성원 추론 및 속성 추론)은 어떤가?
  • RQ5어떤 환자 표현과 샘플링 전략이 작업들 전반에서 최상의 데이터 활용도를 제공하는가?

주요 결과

코호트실제 Pre실제 AUC실제 PRp=95% Prep=95% AUCp=95% PRp=100% Prep=100% AUCp=100% PRk=100 Prek=100 AUCk=100 PRk=200 Prek=200 AUCk=200 PRk=300 Prek=300 AUCk=300 PRGPT-OUTPAT PreGPT-OUTPAT AUCGPT-OUTPAT PRGPT-Vanilla PreGPT-Vanilla AUCGPT-Vanilla PR
HF readmission25.765.739.327.669.245.727.752.429.030.768.132.929.354.032.926.561.133.8100.0NANANANANA
Hospitalization5.675.319.55.277.121.47.471.320.22.887.022.15.284.220.86.378.724.65.0NANANANANA
COPD readmission34.574.283.837.876.484.447.274.167.226.475.990.328.370.182.834.568.880.2NANANANANANA
Afib ischemic stroke8.784.048.510.278.941.210.470.739.116.677.150.515.868.936.610.876.838.5NANANANANANA
CAD CABG7.188.455.94.181.525.24.452.94.37.284.731.34.973.524.34.079.024.1NANANANANANA
  • CEHR-GPT로 생성된 합성 타임라인은 여러 샘플링 전략에서 실제 개념 분포에 밀접하게 일치하며, 차원별 평가에서 특히 top_p=95% 및 top_p=100%에서 그렇다.
  • 합성 데이터의 동시발현 패턴은 일반적으로 실제 데이터를 반영하며, 질환-질환 및 절차-절차 쌍에서 가장 큰 일치를 보인다; 약물 관련 동시발현은 더 분산된다.
  • CEHR-GPT 합성 데이터로 학습된 예측 모델(피처를 BOW로 변환한 로지스틱 회귀)은 여러 코호트에서 경쟁력 있는 ROC-AUC 및 PR-AUC를 달성하며, top_k=300 및 top_p=95% 구성이 전반적으로 최상이다.
  • CEHR-GPT의 대체 표현들(CEHR-BERT, OUTPAT, 및 Vanilla 시퀀스)은 시간 정보 보존 및 데이터 활용도에서 다양한 정도를 보이며, 시간 충실도를 위해 명시적 시간 토큰(ATT/IATT)의 중요성을 강조한다.
  • 개인정보 평가에는 구성원 추론 및 속성 추론 테스트가 포함되며, 잠재적 개인정보 침해를 정량화하는 프레임워크를 채택하지만, 본 발췌문에서 특정 공격 결과는 모두 자세히 제시되지는 않았다.
CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.