Skip to main content
QUICK REVIEW

[论文解读] Multi-task Prediction of Disease Onsets from Longitudinal Lab Tests

Narges Razavian, Jake Marcus|arXiv (Cornell University)|Aug 2, 2016
Machine Learning in Healthcare参考文献 17被引用 39
一句话总结

该论文提出了一种基于原始纵向实验室检查数据的多任务深度学习框架,可提前最多15个月预测133种疾病的发病。通过在298,000名患者的18项实验室检查数据上应用LSTM和两种新型CNN架构,历时36个月,该模型显著优于基于临床特征工程的逻辑回归基线模型,表明从原始数据中进行表示学习可提升医疗领域中的早期疾病预测能力。

ABSTRACT

Disparate areas of machine learning have benefited from models that can take raw data with little preprocessing as input and learn rich representations of that raw data in order to perform well on a given prediction task. We evaluate this approach in healthcare by using longitudinal measurements of lab tests, one of the more raw signals of a patient's health state widely available in clinical data, to predict disease onsets. In particular, we train a Long Short-Term Memory (LSTM) recurrent neural network and two novel convolutional neural networks for multi-task prediction of disease onset for 133 conditions based on 18 common lab tests measured over time in a cohort of 298K patients derived from 8 years of administrative claims data. We compare the neural networks to a logistic regression with several hand-engineered, clinically relevant features. We find that the representation-based learning approaches significantly outperform this baseline. We believe that our work suggests a new avenue for patient risk stratification based solely on lab results.

研究动机与目标

  • 通过利用未经大量临床特征工程的原始纵向实验室检查数据,提升医疗领域中的早期疾病预测能力。
  • 评估基于表示的深度学习模型是否能够优于依赖手工设计临床特征的传统机器学习模型。
  • 开发并验证一种多任务学习框架,能够从稀疏、异步的实验室测量数据中同时预测多种疾病的发病。
  • 证明端到端深度学习在真实世界索赔数据上的临床实用性,用于患者风险分层。

提出的方法

  • 采用滑动窗口方法,对每位患者过去36个月的18项纵向实验室检查值进行处理,以预测疾病发病。
  • 训练长短期记忆(LSTM)循环神经网络,以建模实验室检查序列中的时间依赖性。
  • 引入两种新型一维卷积神经网络(CNN)架构,从序列化实验室数据中提取分层模式。
  • 采用多任务学习设置,利用单一共享表示同时预测133种不同疾病的发病。
  • 模型输入为原始、标准化的实验室值(z得分),未进行领域特定的特征工程。
  • 使用从实验室趋势和汇总数据中提取的20个手工设计的、具有临床相关性的特征,训练逻辑回归基线模型。

实验结果

研究问题

  • RQ1在原始纵向实验室检查数据上训练的深度学习模型,是否能在预测疾病发病方面优于使用专家设计特征的传统模型?
  • RQ2多任务学习在从单一统一的深度学习架构中预测多种临床相关疾病发病方面,效果如何?
  • RQ3基于表示的模型在多大程度上能够检测出在训练期间未明确针对的疾病早期征兆?
  • RQ4使用原始、未经处理的实验室数据并辅以最少预处理,是否能获得比依赖临床特征工程的模型更好的预测性能?
  • RQ5在捕捉稀疏、异步临床实验室数据的时间模式方面,不同深度学习架构(LSTM与CNN)的表现如何比较?

主要发现

  • 所提出的深度学习模型在预测133种疾病发病方面,显著优于逻辑回归基线模型。
  • LSTM和两种新型CNN模型的表现优于手工特征工程基线,证明了端到端表示学习的价值。
  • 该模型成功预测了未直接训练过的疾病,表明其在早期风险分层方面具有广泛的临床应用潜力。
  • 表现最佳的模型在包括代谢、肾脏和心血管疾病在内的多种疾病类别中,AUC均表现出一致的提升。
  • 基线模型的特征重要性分析揭示了具有临床合理性的生物标志物,如葡萄糖和肌酐趋势,进一步验证了预测任务的有效性。
  • 本研究证实,当通过深度学习模型处理时,原始实验室数据中蕴含足够的信号,可用于多病种预测,从而减少对专家标注特征的依赖。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。