QUICK REVIEW

[论文解读] The Use of Autoencoders for Discovering Patient Phenotypes

Harini Suresh, Peter Szolovits|arXiv (Cornell University)|Mar 20, 2017

Machine Learning in Healthcare参考文献 14被引用 21

一句话总结

本文提出使用自编码器——特别是基于LSTM的序列到序列自编码器——从纵向ICU生理数据中学习低维、患者特异的嵌入表示，以揭示潜在的患者表型。序列自编码器在重建不规则、含缺失数据的时间序列方面优于固定长度自编码器，实现了更低的MSE和更鲁棒的表示，尤其在不同长度的ICU住院时间中表现更优。

ABSTRACT

We use autoencoders to create low-dimensional embeddings of underlying patient phenotypes that we hypothesize are a governing factor in determining how different patients will react to different interventions. We compare the performance of autoencoders that take fixed length sequences of concatenated timesteps as input with a recurrent sequence-to-sequence autoencoder. We evaluate our methods on around 35,500 patients from the latest MIMIC III dataset from Beth Israel Deaconess Hospital.

研究动机与目标

开发无监督、数据驱动的患者健康表征，以捕捉超越静态评分的复杂、动态的生理模式。
解决建模不规则采样、缺失和变长ICU时间序列数据以进行患者表型分析的挑战。
评估自编码器是否能学习到反映潜在患者病情严重程度和临床轨迹的有意义低维嵌入。
比较固定长度与序列自编码器架构在重建生理时间序列方面的性能。
评估所学嵌入在不同ICU患者亚群和护理单元中的泛化能力。

提出的方法

使用MIMIC-III数据库提取每位患者的30项生理特征，按小时聚合，并对每小时内多个测量值取平均。
采用填补法和均值插补法处理缺失值，随后按住院死亡率分层，将数据划分为70/15/15的训练/验证/测试集。
训练三种自编码器架构：单层固定长度、两层固定长度和序列自编码器，后者使用堆叠的LSTM层。
对于固定长度模型，将30项特征在4、16、32或64小时时间间隔内拼接为单个输入向量，并通过全连接瓶颈层实现10倍压缩。
对于序列自编码器，将时间步依次输入编码器LSTM，生成固定长度嵌入，再通过第二个LSTM解码以重建输入序列。
隐藏层使用ReLU激活函数，输出层使用Sigmoid激活函数；使用128个样本的小批量训练，并采用早停法防止过拟合。

实验结果

研究问题

RQ1基于LSTM的序列自编码器是否能比固定长度自编码器更有效地重建不规则、含缺失数据的ICU时间序列？
RQ2在不同时间间隔长度（4、16、32、64小时）的生理数据上训练时，自编码器的性能如何变化？
RQ3所学嵌入在不同ICU科室（如MICU、CCU、SICU）的患者亚群中泛化能力如何？
RQ4在较短住院时间的患者中，序列自编码器是否能产生比固定长度模型更鲁棒、更少噪声的重建结果，尤其是在序列末尾？
RQ5所学的低维嵌入是否可作为下游临床预测任务（如干预时机预测）的有效表征？

主要发现

在所有时间间隔长度下，序列自编码器的均方误差（MSE）均低于单层固定长度自编码器，表明其具有更优的重建性能。
在32小时时间间隔下，序列自编码器优于两层固定长度自编码器，且在来自不同ICU科室的较小、分层的患者子集中表现出更好的泛化能力。
在使用32小时时间间隔时，所有护理单元亚群的MSE均低于0.08，表明对人群分层具有鲁棒性。
固定长度自编码器的重建序列在序列末尾表现出尾部噪声，可能源于在拼接向量中对较短住院时间的零填充。
由于序列自编码器能原生地建模变长序列，其生成的重建序列更平滑、时间上更一致，尤其在住院时间较短的患者中表现更优。
序列自编码器在缺失数据和不规则采样方面表现出更优的鲁棒性，因为LSTM在编码过程中可选择性地遗忘无关或缺失的输入。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。