QUICK REVIEW

[논문 리뷰] Modeling Missing Data in Clinical Time Series with RNNs

Zachary C. Lipton, David C. Kale|arXiv (Cornell University)|2016. 06. 13.

Machine Learning in Healthcare참고 문헌 18인용 수 180

한 줄 요약

tldr: 누락을 특징으로 간주하는 것이 불규칙한 소아 ICU 시계열에서 RNN 기반 다중 라벨 진단 분류를 개선하고 보간 중심의 기준선을 능가한다는 것을 논증합니다. 또한 선형 모델이 수작업으로 엔지니어링된 누락 데이터 특징의 이점을 얻고, 일부 진단에 대해 누락성만으로도 예측 가능하다는 것을 보여줍니다.

ABSTRACT

We demonstrate a simple strategy to cope with missing data in sequential inputs, addressing the task of multilabel classification of diagnoses given clinical time series. Collected from the pediatric intensive care unit (PICU) at Children's Hospital Los Angeles, our data consists of multivariate time series of observations. The measurements are irregularly spaced, leading to missingness patterns in temporally discretized sequences. While these artifacts are typically handled by imputation, we achieve superior predictive performance by treating the artifacts as features. Unlike linear models, recurrent neural networks can realize this improvement using only simple binary indicators of missingness. For linear models, we show an alternative strategy to capture this signal. Training models on missingness patterns only, we show that for some diseases, what tests are run can be as predictive as the results themselves.

연구 동기 및 목표

임상 시계열에서 PICU 데이터의 불규칙하고 비무작위 누락을 동기화하고 다루기.
누락 데이터 지시자가 다중 라벨 진단에 대한 예측 성능을 향상시킬 수 있는지 평가.
엔지니어링된 특성과 원시 특성을 비교하고, 임putation 전략과 RNN, MLP 및 선형 모델의 성능 차이를 평가.

제안 방법

임상 시퀀스를 시간 단위로 디스크리트화하여 다중 라벨 진단에 LSTM 기반 RNN 사용.
각 시간 단계에서 각 특징에 대한 이진 누락 지시자를 입력에 추가.
간단한 임퓨테이션(제로 채우기, 전달 채우기)을 시도하고 이 지시자만 사용하거나 지시자와 함께 사용할 때의 성능을 비교.
지시자 시퀀스와 시간 창에서 파생된 수작업 엔지니어링 누락 데이터 특징을 도입.
로컬 감독을 시퀀스 단계에 걸쳐 제공하고 학습을 위한 최종 단계 손실을 사용하기 위해 대상 재현을 활용.

실험 결과

연구 질문

RQ1누락을 입력 특징으로 모델링하는 것이 표준 임퓨테이션 전략과 비교하여 ICU 표현형에 대한 예측 성능을 향상시키는가?
RQ2RNN이 임의가 아닌 누락 패턴을 포착하기 위해 누락 데이터 지시자를 효과적으로 활용할 수 있는가?
RQ3수작업으로 엔지니어링된 누락 데이터 특징이 선형 모델과 MLP를 향상시키고 이것이 RNN과 어떻게 비교되는가?
RQ4누락 데이터 정보만으로도(지시자만) 특정 진단에 대해 예측력이 있는가?

주요 결과

제로 임퓨테이션 및 누락 데이터 지시자를 포함한 LSTM이 전체적인 마이크로 AUC 0.8730 및 매크로 AUC 0.8250의 최상위 성능을 달성했다.
누락 데이터 지시자를 추가하면 RNN, MLP, 및 선형 모델의 성능이 향상되며, 신경망 모델에서 강한 이득이 가장 두드러진다.
수작업으로 엔지니어링된 누락 데이터 특징이 선형 모델의 성능을 크게 향상시키며 일부 설정에서 신경망과의 성능 차이를 근접하게 만든다.
일부 진단은 누락성 패턴만으로도 높은 예측 신호를 보이며, 비임의 누락이 정보성임을 시사한다.
RNN은 0으로 채운 입력으로부터 누락 값을 암묵적으로 학습해 인식하는 경향이 있으며, 데이터와 누락성 간의 복잡한 상호작용을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.