[论文解读] Time-to-Event Prediction with Neural Networks and Cox Regression
本文通过将神经网络扩展到Cox比例风险模型来实现时间到事件预测,提出一种可扩展的基于病例-对照的损失用于比例与非比例风险,并在真实数据集上展示具有竞争力的性能,同时提供一个Python包。
New methods for time-to-event prediction are proposed by extending the Cox proportional hazards model with neural networks. Building on methodology from nested case-control studies, we propose a loss function that scales well to large data sets, and enables fitting of both proportional and non-proportional extensions of the Cox model. Through simulation studies, the proposed loss function is verified to be a good approximation for the Cox partial log-likelihood. The proposed methodology is compared to existing methodologies on real-world data sets, and is found to be highly competitive, typically yielding the best performance in terms of Brier score and binomial log-likelihood. A python package for the proposed methods is available at https://github.com/havakv/pycox.
研究动机与目标
- 动机:通过生存分析来进行时间到事件预测并处理删失。
- 通过整合神经网络来捕捉非线性协变量效应,扩展Cox模型。
- 提供一种基于病例-对照抽样、可扩展到大数据集的训练损失。
- 通过时间相关的相对风险函数扩展到非比例风险。
- 发布一个实现所提方法的Python包以提高可重复性。
提出的方法
- 在Cox框架中用神经网络 g(x) 来替代线性预测子 g(x)。
- 引入基于病例-对照抽样的损失,近似 Cox 部分对数似然并可扩展到小批量(损失形式见方程式 8 和 9)。
- 推广到非线性模型(Cox-MLP),并引入带有时间相关 g(t, x) 的非比例时间分量(Cox-Time)。
- 在使用神经网络时加入小的惩罚项以正则化 g(x)(方程式 10)。
- 通过布莱斯洛方法估计基线风险并计算生存函数来调整预测;对于非比例风险,为了计算效率对时间离散化预测。
- 提供实现这些方法的 Python 包(pycox)。
实验结果
研究问题
- RQ1在处理删失的前提下,将神经网络与Cox建模结合,能否提升时间到事件预测?
- RQ2基于病例-对照的损失是否在大数据环境中提供对Cox部分似然的可扩展且准确的近似?
- RQ3Cox框架是否可以扩展到非线性(Cox-MLP)和非比例(Cox-Time)风险且不产生高昂的计算成本?
- RQ4在真实世界的存活数据上,所提方法与现有方法(DeepSurv、DeepHit、RSF)相比如何?
主要发现
- 所提出的病例-对照损失近似 Cox 部分对数似然,并且在不同批量大小下保持稳定。
- Cox-SGD 的参数估计随着数据规模增加而收敛到经典 Cox 估计;对小数据集增加对照样本有帮助但增加计算成本。
- 通过 Cox-Time 的非比例风险在模拟数据上相较于比例风险方法获得更好的生存函数估计。
- 在五个真实世界数据集(包括 SUPPORT、METABRIC、Rotterdam & GBSG,以及 FLCHAIN)上,所提出的方法在鉴别和校准指标(如 C-index、Brier score、binomial log-likelihood)方面具有竞争力或优于现有方法。
- 作者提供一个基于 PyTorch 的 Python 包(pycox),用于实现他们的方法并复现实验和分析。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。