Skip to main content
QUICK REVIEW

[논문 리뷰] Medical Concept Representation Learning from Electronic Health Records and its Application on Heart Failure Prediction

Edward Choi, Andy Schuetz|arXiv (Cornell University)|2016. 02. 11.
Machine Learning in Healthcare참고 문헌 27인용 수 117
한 줄 요약

이 논문은 시계열 EHR 데이터에서 공존(co-occurrence)을 활용해 개념 표현을 학습하고, 이러한 표현을 이용해 심부전 예측이 향상됨을 보여준다.

ABSTRACT

Objective: To transform heterogeneous clinical data from electronic health records into clinically meaningful constructed features using data driven method that rely, in part, on temporal relations among data. Materials and Methods: The clinically meaningful representations of medical concepts and patients are the key for health analytic applications. Most of existing approaches directly construct features mapped to raw data (e.g., ICD or CPT codes), or utilize some ontology mapping such as SNOMED codes. However, none of the existing approaches leverage EHR data directly for learning such concept representation. We propose a new way to represent heterogeneous medical concepts (e.g., diagnoses, medications and procedures) based on co-occurrence patterns in longitudinal electronic health records. The intuition behind the method is to map medical concepts that are co-occuring closely in time to similar concept vectors so that their distance will be small. We also derive a simple method to construct patient vectors from the related medical concept vectors. Results: For qualitative evaluation, we study similar medical concepts across diagnosis, medication and procedure. In quantitative evaluation, our proposed representation significantly improves the predictive modeling performance for onset of heart failure (HF), where classification methods (e.g. logistic regression, neural network, support vector machine and K-nearest neighbors) achieve up to 23% improvement in area under the ROC curve (AUC) using this proposed representation. Conclusion: We proposed an effective method for patient and medical concept representation learning. The resulting representation can map relevant concepts together and also improves predictive modeling performance.

연구 동기 및 목표

  • 이종 EHR 데이터를 임상적으로 의미 있는 데이터 기반 특징으로 변환하는 동기를 제시한다.
  • 시간적 공존에 기반한 진단, 약물, 절차에 대한 표현 학습 방법을 제안한다.
  • 개념 벡터로부터 환자 벡터를 구성하여 다운스트림 예측 작업을 가능하게 한다.

제안 방법

  • 의료 개념(진단, 약물, 절차)을 장기 EHR 데이터에서의 공존 패턴을 통해 표현한다.
  • 시간적으로 근접한 공존 개념을 유사한 벡터로 매핑하여 임상적 관련성을 반영한다.
  • 예측을 위한 개념 벡터로부터 환자 벡터를 구성하는 간단한 방법을 도출한다.
  • 범주 간 개념 유사성을 살펴보아 표현 품질을 질적으로 평가한다.
  • 표준 분류기(로지스틱 회귀, 신경망, SVM, k-NN)를 사용하여 심부전 발병 예측의 예측 성능을 정량적으로 평가한다.

실험 결과

연구 질문

  • RQ1공존 기반 개념 표현이 진단, 약물, 절차 간의 임상적으로 의미 있는 관계를 포착할 수 있는가?
  • RQ2학습된 표현이 원시 코드형 특징과 비교했을 때 심부전 발병 예측 모델을 개선하는가?
  • RQ3제안된 표현을 사용한 HF 예측에서 서로 다른 분류기는 어떻게 성능을 보이는가?
  • RQ4의료 개념이 벡터 공간에서 표현될 때 어떤 질적 관계가 나타나는가?

주요 결과

  • 질적 분석은 진단, 약물, 절차 범주 전반에서 임상적으로 유사한 개념이 서로 군집화됨을 보여준다.
  • 정량적 결과는 제안된 표현을 사용할 때 HF 발병 예측에서 유의미한 개선이 나타났으며, 베이스라인에 비해 최대 23%의 AUC 향상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.