QUICK REVIEW

[论文解读] Attend and Diagnose: Clinical Time Series Analysis using Attention Models

Huan Song, Deepta Rajan|arXiv (Cornell University)|Nov 10, 2017

Machine Learning in Healthcare参考文献 20被引用 42

一句话总结

本文提出SAnD（Simply Attend and Diagnose），一种基于自注意力机制的新型临床时间序列分析架构，用掩码多头注意力机制替代循环神经网络，结合位置编码和密集插值以建模时间顺序。该模型在多个MIMIC-III基准任务中达到最先进性能，优于基于LSTM的模型和经典基线模型，在死亡率预测、失代偿检测、住院时长预测和表型分类任务中表现优异。

ABSTRACT

With widespread adoption of electronic health records, there is an increased emphasis for predictive models that can effectively deal with clinical time-series data. Powered by Recurrent Neural Network (RNN) architectures with Long Short-Term Memory (LSTM) units, deep neural networks have achieved state-of-the-art results in several clinical prediction tasks. Despite the success of RNNs, its sequential nature prohibits parallelized computing, thus making it inefficient particularly when processing long sequences. Recently, architectures which are based solely on attention mechanisms have shown remarkable success in transduction tasks in NLP, while being computationally superior. In this paper, for the first time, we utilize attention models for clinical time-series modeling, thereby dispensing recurrence entirely. We develop the extit{SAnD} (Simply Attend and Diagnose) architecture, which employs a masked, self-attention mechanism, and uses positional encoding and dense interpolation strategies for incorporating temporal order. Furthermore, we develop a multi-task variant of extit{SAnD} to jointly infer models with multiple diagnosis tasks. Using the recent MIMIC-III benchmark datasets, we demonstrate that the proposed approach achieves state-of-the-art performance in all tasks, outperforming LSTM models and classical baselines with hand-engineered features.

研究动机与目标

解决RNN在建模长临床时间序列时计算效率低下和顺序依赖性限制的问题。
探究仅使用自注意力机制是否能有效建模临床序列而无需循环结构。
通过位置编码和密集插值将时间顺序信息融入基于注意力的表示中。
在多个临床预测任务的标准化MIMIC-III基准上评估所提出模型的性能。
探究使用SAnD进行多任务学习在联合诊断建模中的有效性。

提出的方法

提出一种掩码多头自注意力机制，以确保因果性并建模单个序列内的依赖关系。
集成位置编码以在序列中保留相对时间步信息。
采用密集插值嵌入方法，通过估计缺失值来处理不规则采样的临床时间序列数据。
使用残差连接和层归一化以提升训练稳定性。
通过网格搜索优化超参数（N：注意力层数量，M：密集插值因子，r：序列分辨率）以提升性能。
采用带加权损失函数的多任务学习，联合优化死亡率、失代偿、住院时长和表型分类任务。

实验结果

研究问题

RQ1仅使用自注意力机制是否能在无循环结构的情况下实现临床时间序列建模的最先进性能？
RQ2位置编码和密集插值在捕捉不规则采样临床数据的时间顺序方面有多有效？
RQ3SAnD架构是否在标准MIMIC-III基准上优于基于LSTM的模型和人工设计特征基线？
RQ4使用SAnD进行多任务学习是否能提升多样临床预测任务中的泛化能力和性能？
RQ5哪些超参数设置（如层数、插值因子）能在不同临床任务中实现最优性能？

主要发现

SAnD在MIMIC-III基准的全部四项任务中均达到最先进性能：死亡率预测、生理失代偿检测、住院时长预测和表型分类。
在住院死亡率预测任务中，SAnD的AUROC达到0.892，AUPRC达到0.587，优于最佳LSTM基线模型。
在失代偿检测任务中，SAnD的AUROC达到0.856，AUPRC达到0.421，显著优于先前最先进方法。
在住院时长预测任务中，SAnD的Cohen’s加权 kappa达到0.432，MAPE为42.1%，优于基于LSTM的模型。
多任务SAnD变体在所有任务中均取得最佳性能，泛化能力更强且过拟合现象更少，尤其在低数据场景下表现突出。
最优超参数因任务而异：死亡率预测任务中N=4，M=12；失代偿检测任务中N=1，M=10；住院时长预测任务中N=3，M=12；多任务学习中表型分类任务的N=2，M=36。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。