QUICK REVIEW

[论文解读] Highrisk Prediction from Electronic Medical Records via Deep Attention Networks

You Jin Kim, Yun-Geun Lee|arXiv (Cornell University)|Nov 30, 2017

Machine Learning in Healthcare参考文献 17被引用 20

一句话总结

该论文提出MeHPAN，一种深度注意力网络，仅使用符号化电子病历（ICD-10和药品编码）预测高血压患者发生高风险血管疾病的时间。该模型采用双向GRU（R-MeHPAN）和1D卷积神经网络（C-MeHPAN）架构，结合多任务学习与注意力机制，相比SVM和随机森林模型，AUC（0.851）和F1得分（0.746）表现更优，且C-MeHPAN训练速度提升10倍。

ABSTRACT

Predicting highrisk vascular diseases is a significant issue in the medical domain. Most predicting methods predict the prognosis of patients from pathological and radiological measurements, which are expensive and require much time to be analyzed. Here we propose deep attention models that predict the onset of the high risky vascular disease from symbolic medical histories sequence of hypertension patients such as ICD-10 and pharmacy codes only, Medical History-based Prediction using Attention Network (MeHPAN). We demonstrate two types of attention models based on 1) bidirectional gated recurrent unit (R-MeHPAN) and 2) 1D convolutional multilayer model (C-MeHPAN). Two MeHPAN models are evaluated on approximately 50,000 hypertension patients with respect to precision, recall, f1-measure and area under the curve (AUC). Experimental results show that our MeHPAN methods outperform standard classification models. Comparing two MeHPANs, R-MeHPAN provides more better discriminative capability with respect to all metrics while C-MeHPAN presents much shorter training time with competitive accuracy.

研究动机与目标

开发一种深度学习模型，仅基于电子病历（EMR）中的符号化病史序列预测高风险血管疾病的发生，避免昂贵的影像学检查和实验室检测。
通过注意力机制聚焦纵向患者病史中的关键诊断与用药序列，提升预测性能。
比较两种架构——基于RNN的R-MeHPAN与基于1D CNN的C-MeHPAN——在预测准确率与训练效率方面的表现。
在50,000名高血压患者的现实世界EMR数据上评估模型，重点关注临床预测中常见的类别不平衡场景。

提出的方法

提出MeHPAN，一种双分支注意力网络，分别处理诊断与用药病史，使用ICD-10编码和药品编码的嵌入序列。
在R-MeHPAN中采用双向门控循环单元（GRU），通过时间步上的注意力机制建模病史中的序列依赖关系。
在C-MeHPAN中使用1D卷积层，实现对序列数据的快速并行处理，结合门控线性单元（GLU）实现非线性变换。
采用多任务学习，设置两个输出头：二分类任务（高风险 vs. 否）与多分类任务（心血管疾病、脑血管疾病或无疾病）。
在C-MeHPAN中实现三种注意力机制：时间步上的求和、强调后期时间步的加权求和，以及最后时间步池化，以生成上下文向量。
使用从就诊日期与用药日期推导出的对数变换持续时间序列（DUR与MD_DUR），编码疾病进展的时间进程。

实验结果

研究问题

RQ1仅在符号化病史（ICD-10与药品编码）上进行训练的深度注意力网络，是否能在预测高风险血管疾病发生方面超越传统机器学习模型？
RQ2基于GRU的R-MeHPAN与基于1D CNN的C-MeHPAN在预测性能与训练效率方面如何比较？
RQ3在C-MeHPAN架构中，不同注意力机制实现方式（求和、加权求和、最后一步）对模型性能有何影响？
RQ4多任务学习在从EMR中预测高风险血管疾病时，能在多大程度上提升泛化能力与误差纠正能力？

主要发现

R-MeHPAN在所有模型中取得最高AUC（0.851）与F1得分（0.746），在所有指标上均优于SVM与随机森林。
C-MeHPAN虽训练速度为R-MeHPAN的10倍，但性能仍具竞争力，AUC达0.828（加权求和注意力），F1得分为0.702。
C-MeHPAN中，加权求和注意力方法在精确率、召回率、F1与AUC各项指标上均表现最佳，优于求和与最后时间步方法。
SVM与随机森林虽精确率较高，但召回率极低（分别为0.022与0.437），表明在类别不平衡数据中对高风险病例的检测能力差。
R-MeHPAN训练耗时65.5分钟，而采用加权求和注意力的C-MeHPAN仅需7.08分钟，展现出显著的速度优势。
多任务学习通过在二分类与多分类输出头之间实现误差反馈，提升了整体模型的鲁棒性与预测准确性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。