[论文解读] Temporal Convolutional Neural Networks for Diagnosis from Lab Tests
本文提出一种多分辨率时间卷积神经网络(TCN),利用插补的实验室检查数据和二值化观测掩码,仅基于3年内的18项常见实验室检查指标,提前最多3个月预测171种疾病。该方法通过可微分多变量核回归进行插补,并采用端到端训练与共享组件的多任务学习,学习到具有生物学意义的时间疾病特征,其性能优于标准基线模型。
Early diagnosis of treatable diseases is essential for improving healthcare, and many diseases' onsets are predictable from annual lab tests and their temporal trends. We introduce a multi-resolution convolutional neural network for early detection of multiple diseases from irregularly measured sparse lab values. Our novel architecture takes as input both an imputed version of the data and a binary observation matrix. For imputing the temporal sparse observations, we develop a flexible, fast to train method for differentiable multivariate kernel regression. Our experiments on data from 298K individuals over 8 years, 18 common lab measurements, and 171 diseases show that the temporal signatures learned via convolution are significantly more predictive than baselines commonly used for early disease diagnosis.
研究动机与目标
- 开发一种深度学习模型,利用纵向、稀疏且不规则测量的实验室检查数据,实现多种可治疗和可预防疾病的早期诊断。
- 将具有生物学意义的时间模式与医疗资源使用信号(如检测频率)分离,以支持因果医学研究并提高诊断准确性。
- 设计一种可微分、训练快速的插补方法,适用于多变量、异步时间序列,保留时间结构并支持端到端学习。
- 在真实世界电子健康记录数据上,将所学时间特征的预测能力与逻辑回归和多层感知机等标准基线方法进行比较。
- 证明多分辨率TCN能够有效从有限的实验室数据中学习疾病发病模式,从而支持可扩展、低成本的早期干预计划。
提出的方法
- 采用多分辨率TCN架构,171种疾病共享网络层,实现多任务学习,支持多种疾病的同时预测。
- 采用双通道输入:一个通道用于插补的连续实验室数值(使用可微分多变量核回归),另一个通道用于指示检测时间的二值化观测掩码。
- 应用可微分的非参数核回归进行插补,适用于高维、异步多变量时间序列,具有良好的可扩展性和高效性。
- 使用加权负对数似然损失函数进行端到端训练,实现插补与预测组件的联合优化。
- 采用滑动窗口方法处理可变长度的患者病史,每个时间点预测未来3个月内疾病发病。
- 在所有全连接层和卷积层中应用批量归一化和Dropout,以提高训练稳定性和泛化能力。
实验结果
研究问题
- RQ1深度卷积神经网络能否从稀疏、不规则测量的实验室数据中学习到具有生物学意义的时间疾病特征,从而比当前临床方法更早预测疾病发病?
- RQ2与仅使用插补值或原始数据相比,引入单独的观测掩码(指示检测频率)对预测性能有何影响?
- RQ3与传统插补方法相比,基于多变量核回归的可微分插补方法在保留与疾病预测相关的时间模式方面表现如何?
- RQ4与标准前馈或循环神经网络架构相比,多分辨率卷积在从有限实验室数据中捕捉疾病进展模式方面表现如何?
- RQ5仅使用18项常见实验室检查指标和3年病史,哪些疾病可以提前预测,其可达到的AUC值是多少?
主要发现
- 所提出的TCN模型在171种疾病的早期检测中,AUC得分显著高于标准基线模型(如基于最大值的逻辑回归、多层感知机),在心力衰竭、糖尿病和前列腺癌等主要疾病中均观察到性能提升。
- 双通道输入(插补值 + 观测掩码)的预测性能与使用原始未插补数据训练的模型相当,表明该插补方法能有效将生物信号与资源使用模式分离。
- 对于多种疾病,尤其是心脏、肾脏、肝脏和激素相关疾病,仅使用18项常见实验室检查指标,即可在至少3个月前以高精度(AUC > 0.85)预测发病。
- 基于多变量核回归的可微分插补方法在单变量数据上性能与高斯过程相当,但速度更快,且可扩展至多变量、异步时间序列。
- 模型学习多分辨率时间模式的能力使其能够检测出与基线健康状态的细微、长期偏离,这对早期诊断至关重要。
- 结果表明,该模型可支持大规模、低成本的风险分层项目,比当前临床实践更早识别高风险个体。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。