QUICK REVIEW

[논문 리뷰] Simple Recurrent Neural Networks is all we need for clinical events predictions using EHR data

Laila Rasmy, Jie Zhu|arXiv (Cornell University)|2019. 01. 01.

Machine Learning in Healthcare참고 문헌 7인용 수 9

한 줄 요약

이 연구는 전자 건강 기록(EHR) 데이터를 사용하여 임상 이벤트를 예측하기 위해 다양한 순환 신경망(RNN) 아키텍처를 평가한다. 두 가지 실제 EHR 예측 과제—심부전 위험 및 30일 이내 재입원—에서 단순한 단방향 게이팅 순환 유닛(GRU)이 더 복잡한 모델들과 전통적인 기계학습 방법을 능가하는 최고의 성능을 기록한다. 이는 적절한 초모수 튜닝을 통해 아키텍처의 단순성이 EHR 기반 임상 예측에서 높은 성능을 달성하는 데 충분하다는 것을 시사한다.

ABSTRACT

Recently, there is great interest to investigate the application of deep learning models for the prediction of clinical events using electronic health records (EHR) data. In EHR data, a patient's history is often represented as a sequence of visits, and each visit contains multiple events. As a result, deep learning models developed for sequence modeling, like recurrent neural networks (RNNs) are common architecture for EHR-based clinical events predictive models. While a large variety of RNN models were proposed in the literature, it is unclear if complex architecture innovations will offer superior predictive performance. In order to move this field forward, a rigorous evaluation of various methods is needed. In this study, we conducted a thorough benchmark of RNN architectures in modeling EHR data. We used two prediction tasks: the risk for developing heart failure and the risk of early readmission for inpatient hospitalization. We found that simple gated RNN models, including GRUs and LSTMs, often offer competitive results when properly tuned with Bayesian Optimization, which is in line with similar to findings in the natural language processing (NLP) domain. For reproducibility, Our codebase is shared at https://github.com/ZhiGroup/pytorch_ehr.

연구 동기 및 목표

종단적 EHR 데이터를 사용하여 다양한 RNN 아키텍처의 임상 이벤트 예측 성능을 평가하는 것.
임상 환경에서 더 복잡한 RNN 혁신이 단순 모델보다 예측 성능을 향상시키는지 여부를 규명하는 것.
전통적인 기계학습 방법(예: 랜덤 포레스트 및 로지스틱 회귀)과 RNN 기반 모델을 비교 평가하는 것.
초모수 튜닝 및 최적화 전략이 EHR 예측에서 모델 성능에 미치는 영향을 평가하는 것.
NLP 분야의 평가와 유사하게, 임상 위험 예측을 위한 RNN 모델에 대한 종합적이고 경험 기반의 평가를 제공하는 것.

제안 방법

이 연구는 PyTorch v0.4를 사용하여 바닐라 RNN, LSTM, GRU, 양방향, 확장형, QRNN, T-LSTM를 포함한 총 12개의 RNN 기반 아키텍처를 평가한다.
세 가지 셀 유형(바닐라 RNN, LSTM, GRU)과 세 가지 연결 유형(표준, 양방향, 확장형)을 조합하여 9개의 핵심 RNN 변종을 구성한다.
비교를 위해 추가로 퀼라스 RNN(QRNN)과 시간 인식 LSTM(T-LSTM) 두 모델을 포함한다.
딥 러닝 기반 베이스라인으로 로지스틱 회귀(LR)와 랜덤 포레스트(RF)를 설정한다.
임bedding 차원, 은닉 크기, 학습률, 가중치 감쇠, 정확도 허용 오차 등의 초모수는 7개의 최적화기(Adam, Adamax, Adagrad, Adadelta, RMSprop, ASGD, SGD)를 통해 베이지안 최적화를 통해 최적화한다.
모델 평가는 7:1:2 훈련-검증-테스트 분할을 사용하며, 두 개의 Cerner Healthfacts® 데이터베이스에서 확보한 EHR 코hort에서 AUROC를 주요 평가 지표로 사용한다.

실험 결과

연구 질문

RQ1EHR 데이터에서 임상 이벤트를 예측할 때 바닐라 RNN과 유사한 단순한 RNN 아키텍처인 GRU가 더 복잡한 RNN 변종보다 뛰어난 성능을 보일까?
RQ2양방향 또는 확장형 연결과 같은 아키텍처 혁신이 EHR 기반 임상 모델링에서 예측 성능을 얼마나 향상시키는가?
RQ3EHR 예측 과제에서 딥 러닝 RNN 모델은 랜덤 포레스트 및 로지스틱 회귀와 같은 전통적인 기계학습 모델보다 어떻게 비교되는가?
RQ4복잡한 RNN 아키텍처의 성능 향상가치가 계산 비용과 튜닝 노력에 비해 충분한가?
RQ5단순히 초모수 최적화만으로도 아키텍처의 복잡성 없이 최첨단 성능을 달성할 수 있는가?

주요 결과

단방향 GRU는 심부전 예측 과제에서 84.8의 최고 AUROC를 기록하여 모든 다른 RNN 변종과 전통적 모델을 능가했다.
재입원 예측 과제에서 GRU는 75.5의 AUROC를 기록하여 Bi-GRU와 Bi-LSTM를 포함한 테스트된 모든 모델 중에서 가장 높은 성능을 보였다.
바닐라 RNN과 GRU 모델은 경쟁적인 성능을 보였으며, 심부문 위험 과제에서 AUROC가 각각 83.3과 84.8이었으며, 이는 단순한 아키텍처가 매우 효과적임을 시사한다.
양방향 및 확장형 RNN 변종은 혼합된 결과를 보였으며, Bi-GRU는 심부전 과제에서 84.5 AUROC, 재입원 과제에서 74.4 AUROC를 기록하여 단방향 GRU보다 略적으로 낮았다.
앙상블 방법(예: GRU + LR)의 포함은 성능 향상을 가져오지 않았으며, 이는 주어진 과제에서 GRU 자체가 이미 최적임을 시사한다.
랜덤 포레스트(78.8 AUROC) 및 로지스틱 회귀(79.0 AUROC)와 같은 전통적 모델은 특히 재입원 과제에서 최고의 RNN 모델에 비해 열등한 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.