QUICK REVIEW

[논문 리뷰] EHRDiff: Exploring Realistic EHR Synthesis with Diffusion Models

Hongyi Yuan, Songchi Zhou|arXiv (Cornell University)|2023. 03. 10.

Mathematics, Computing, and Information Processing인용 수 7

한 줄 요약

이 논문은 EHRDiff를 소개합니다, 확산 모델 기반의 합성 현실적인 전자건강기록(EHR) 방법이며 MIMIC-III 데이터에서 GAN 기반 기준선과 성능을 비교하고, 데이터 활용도 및 프라이버시 보호가 개선되었음을 강조합니다.

ABSTRACT

Electronic health records (EHR) contain a wealth of biomedical information, serving as valuable resources for the development of precision medicine systems. However, privacy concerns have resulted in limited access to high-quality and large-scale EHR data for researchers, impeding progress in methodological development. Recent research has delved into synthesizing realistic EHR data through generative modeling techniques, where a majority of proposed methods relied on generative adversarial networks (GAN) and their variants for EHR synthesis. Despite GAN-based methods attaining state-of-the-art performance in generating EHR data, these approaches are difficult to train and prone to mode collapse. Recently introduced in generative modeling, diffusion models have established cutting-edge performance in image generation, but their efficacy in EHR data synthesis remains largely unexplored. In this study, we investigate the potential of diffusion models for EHR data synthesis and introduce a novel method, EHRDiff. Through extensive experiments, EHRDiff establishes new state-of-the-art quality for synthetic EHR data, protecting private information in the meanwhile.

연구 동기 및 목표

실세계 EHR 데이터를 공유하는 데 있어 프라이버시 장벽을 극복하기 위한 현실적인 EHR 합성의 필요성 고무.
데이터 품질을 개선하고 모드 붕괴를 줄이기 위한 확산 기반 EHR 합성(EHRDiff) 제안.
공개 EHR 데이터(MIMIC-III)에서 EHRDiff를 GAN 스타일의 기준선과 실증적으로 비교.
분포성, 예측, 잠재구조 지표 전반에 걸쳐 합성 데이터 활용도 평가.
합성 EHR와 관련된 프라이버시 위험 평가를 통해 프라이버시 보호 보장.]
method([

제안 방법

EHR 데이터를 1,782개 ICD 코드 특징의 이진 벡터로 모델링하고 x0 ∈ {0,1}^{|C|}에서 확산 모델링을 적용한다.
데이터를 손상시키기 위해 f와 g를 갖는 순방향 SDE를 사용하고, denoising D_theta를 통해 점수 함수를 학습하는 점수 기반 역과정을 사용한다.
적응형 스킴 D_theta(x;σ)=c_skip(σ)x + c_out(σ)F_theta(c_in(σ)x; c_noise(σ))로 디노이징 함수를 매개변수화하여 노이즈 규모 전반에 걸친 안정적 학습을 가능하게 한다.
확률 흐름 ODE dx = -t ∇_x log p_{σ_t}(x) dt를 Heun의 2차 샘플링으로 해결하여 노이즈로부터 결정적 생성.
F_theta를 예측된 디노이즈된 출력을 깨끗한 x0와 정렬시키는 손실(방정식 13)을 통해 학습한다.
합성 데이터 활용도를 분포성, 예측, 잠재구조 지표 및 속성 및 멤버십 추론 테스트를 통한 프라이버시로 평가한다.

실험 결과

연구 질문

RQ1확산 모델이 GAN 기반 방법보다 더 높은 품질의 분포적으로 충실한 합성 EHR을 생성할 수 있는가?
RQ2확산 기반 합성 EHR이 GAN 기준선에 비해 프라이버시를 더 잘 보존하면서 유용성을 유지하는가?
RQ3공개적으로 이용 가능한 EHR 데이터(MIMIC-III)에서 무조건적 EHR 합성 설정에서 EHRDiff의 성능은 어떠한가?

주요 결과

모델	APD	NZC	CMD	LD	MCAD
medGAN	1.967	560	29.302	-4.307	0.250
medBGAN	1.406	848	54.833	-4.309	0.112
medWGAN	2.225	420	8.395	-14.761	0.071
CorGAN	2.164	799	11.439	-7.667	0.145
EMR-WGAN	0.511	1039	6.938	-13.881	0.078
EHRDiff	1.256	1677	8.005	-14.487	0.066

EHRDiff는 GAN 기준선에 비해 여러 유틸리티 지표에서 실제 EHR에 대한 분포 충실도가 우수하다.
차원별 유병률 및 상관 구조에서 실제 데이터와 더 가까이 정렬되며 샘플 수준 분포(MCAD)에서 기준선보다 우수하다.
대부분의 유틸리티 지표에서 EHRDiff는 GAN 기반 방법을 능가하고 최고의 기준선과 경쟁적이다(예: medWGAN).
프라이버시 평가에서 강력한 기준선에 비해 속성과 멤버십 추론 위험 결과가 경쟁적이며, 더 높은 데이터 품질을 제공한다.
전반적으로 EHRDiff는 확산 모델을 이용한 현실적 EHR 합성에서 새로운 최첨단을 설정하고 프라이버시 보존 특성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.