QUICK REVIEW

[논문 리뷰] Self-Supervised Graph Learning with Hyperbolic Embedding for Temporal Health Event Prediction

Chang Lü, Chandan K. Reddy|arXiv (Cornell University)|2021. 06. 08.

Machine Learning in Healthcare참고 문헌 47인용 수 46

한 줄 요약

Sherbet는 전자 건강 기록(EHR)을 사용한 시간적 건강 사건 예측을 향상시키기 위해 초점화된 임베딩을 갖춘 자기지도 그래프 학습 프레임워크를 제안한다. 이는 질병 계층을 정보 흐름과 함께 새로운 초구면 임베딩 방법으로 활용하여 가중치가 부여되고 방향성이 있는 질병 상호작용 그래프를 구성하고, 다수준 주의 메커니즘을 통해 일반적이고 개인 맞춤형 해석 가능성을 동시에 제공함으로써, 라벨이 없는 데이터를 완전히 활용하면서도 공개 EHR 데이터셋에서 예측 성능을 크게 향상시킨다.

ABSTRACT

Electronic Health Records (EHR) have been heavily used in modern healthcare systems for recording patients' admission information to hospitals. Many data-driven approaches employ temporal features in EHR for predicting specific diseases, readmission times, or diagnoses of patients. However, most existing predictive models cannot fully utilize EHR data, due to an inherent lack of labels in supervised training for some temporal events. Moreover, it is hard for existing works to simultaneously provide generic and personalized interpretability. To address these challenges, we first propose a hyperbolic embedding method with information flow to pre-train medical code representations in a hierarchical structure. We incorporate these pre-trained representations into a graph neural network to detect disease complications, and design a multi-level attention method to compute the contributions of particular diseases and admissions, thus enhancing personalized interpretability. We present a new hierarchy-enhanced historical prediction proxy task in our self-supervised learning framework to fully utilize EHR data and exploit medical domain knowledge. We conduct a comprehensive set of experiments and case studies on widely used publicly available EHR datasets to verify the effectiveness of our model. The results demonstrate our model's strengths in both predictive tasks and interpretable abilities.

연구 동기 및 목표

시간적 이벤트 예측에서 라벨 부족으로 인해 EHR 데이터가 충분히 활용되지 않는 문제를 해결하기 위해.
의료 코드의 계층적 구조(예: ICD-9-CM)를 활용하여 더 나은 질병 표현 학습을 위해.
가중치가 부여되고 방향성이 있는 질병 상호작용 그래프를 통해 질병 합병증과 상호작용을 모델링하기 위해.
예측에서 일반적 해석 가능성(질병 수준 패턴)과 개인 맞춤형 해석 가능성(환자 수준 기여도)을 동시에 제공하기 위해.
모든 입원 기록—단일 입원 및 최종 입원 포함—을 활용하는 자기지도 프록시 작업을 설계하여 역사적 진단을 계층적으로 예측하기 위해.

제안 방법

ICD-9-CM 코드의 계층적 구조를 활용하여 의료 코드 표현을 사전 학습하기 위해 정보 흐름이 있는 새로운 초구면 임베딩 방법을 제안한다.
환자 입원 기록에서의 동시 발생 패턴을 기반으로 가중치가 부여되고 방향성이 있는 질병 상호작용 그래프를 구성한다.
질병 합병증 패턴과 은닉 표현을 학습하기 위해 질병 상호작용 그래프에 그래프 신경망(GNN)을 적용한다.
코드 수준(질병 수준) 및 입원 수준의 기여도를 계산하기 위해 다수준 주의 메커니즘을 도입하여 개인 맞춤형 해석 가능성을 제공한다.
모든 입원 기록—단일 입원 및 최종 입원 포함—에 대해 사전 학습을 위한 레이블을 생성하기 위해 계층 강화된 역사적 예측 프록시 작업을 설계한다.
자기지도 사전 학습을 내재화된 미세조정 모듈과 통합하여 시간적 예측 작업(예: 진단 예측)에 활용한다.

실험 결과

연구 질문

RQ1계층적으로 이전 진단을 예측하는 자기지도 프록시 작업이 라벨이 없는 EHR 데이터의 활용도를 향상시킬 수 있는가?
RQ2초구면 임베딩이 의료 코드의 계층적 구조를 효과적으로 모델링하면서 의미적 유사성을 유지할 수 있는가?
RQ3가중치가 부여되고 방향성이 있는 질병 상호작용 그래프가 임상적으로 관련된 질병 합병증을 포착할 수 있는가?
RQ4다수준 주의 메커니즘이 EHR 기반 예측에서 일반적이고 개인 맞춤형 해석 가능성을 동시에 제공할 수 있는가?
RQ5계층적 구조, 질병 상호작용, 자기지도 사전 학습의 통합이 시간적 건강 사건 예측 성능을 향상시키는가?

주요 결과

Sherbet는 다양한 EHR 벤치마크 데이터셋에서 진단 예측에 대해 최신 기술 수준의 성능을 달성하여 기존의 지도 학습 및 자기지도 학습 모델을 능가한다.
t-SNE 시각화 결과에 따르면, 초구면 공간에서 관련 질병(예: 고혈압과 심부전)이 가까이 위치하여 질병 합병증을 효과적으로 포착하고 있음을 확인할 수 있다.
다양한 당뇨병 유형(예: 제1형 및 제2형 당뇨병) 간의 다른 합병증을 기반으로 구분할 수 있어 의미 있는 표현 학습이 이루어졌음을 시사한다.
다수준 주의 시각화 결과, 모델이 특정 질병과 입원 기록의 기여도를 정량화하고 있으며, 높은 주의 가중치가 임상적으로 타당한 인과 경로와 일치함을 확인할 수 있다.
자기지도 프록시 작업 덕분에 단일 입원 및 최종 입원을 포함한 EHR 데이터의 전반적인 활용이 가능해졌으며, 사전 학습을 위한 합성 레이블을 생성할 수 있었다.
사례 연구를 통해 Sherbet가 일반적 해석 가능성(예: 질병 동반 질환 패턴)과 개인 맞춤형 해석 가능성(예: 과거 입원이 향후 진단에 기여하는 방식)을 모두 제공함으로써 임상적 신뢰도를 향상시켰음을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.