[论文解读] K-Adaptive Partitioning for Survival Data: The kaps Add-on Package for R
本文提出使用 kaps R 包对生存数据进行 K-自适应划分,实现最优的多路分割,以识别异质性生存群体,而无需预先指定群体数量(K)。通过结合重采样技术选择 K 值,并采用基于 log-rank 统计量的递归划分方法,该方法在生存分析中提升了预后群体识别的准确性,已在结直肠癌数据中得到验证。
The partitioning of an ordered prognostic factor is important in order to obtain several groups having heterogeneous survivals in medical research. For this purpose, a binary split has often been used once or recursively. We propose the use of a multi-way split in order to afford an optimal set of cut-off points. In practice, the number of groups (K) may not be specified in advance. Thus, we also suggest finding an optimal K by a resampling technique. The algorithm was implemented into an R package that we called kaps, which can be used conveniently and freely. It was illustrated with a toy dataset, and was also applied to a real data set of colorectal cancer cases from the Surveillance Epidemiology and End Results.
研究动机与目标
- 为解决生存数据划分中二元或递归二元分割的局限性,这些方法可能无法捕捉到最优分组。
- 开发一种方法,以在无需预先指定 K 值的情况下,确定最优的预后群体数量(K)。
- 通过基于预后因素的多路分割,改进临床有意义的生存亚群识别。
- 将该方法实现为一个免费的 R 包(kaps),以供医学研究中实际应用。
- 使用模拟数据集和来自 SEER 的真实世界结直肠癌数据对方法进行验证。
提出的方法
- 采用多路分割方法,将有序的预后因素划分为 K 个组,使各组的生存结局差异最大化。
- 使用 log-rank 检验统计量评估划分过程中各组间生存分布的同质性。
- 应用重采样技术(如交叉验证或置换检验)通过最小化预测误差来选择最优群体数量(K)。
- 实施带有 K-自适应选择的递归划分,使 K 值能基于重采样性能迭代确定。
- 将算法集成到名为 kaps 的 R 包中,以便在生存分析中实现用户友好的应用。
- 采用贪心搜索策略,识别能最大化 K 组间生存差异的切点。
实验结果
研究问题
- RQ1与传统的二元分割相比,多路划分是否能提升对预后亚群的识别能力?
- RQ2如何在不预先指定的情况下自动确定最优群体数量(K)?
- RQ3所提出的 K-自适应划分方法是否能产生比标准方法更具临床相关性和统计显著性的生存分组?
- RQ4kaps 包在真实世界生存数据(如来自 SEER 的结直肠癌数据)上的表现如何?
- RQ5基于重采样的 K 值选择对最终生存群体的稳定性和预测准确性有何影响?
主要发现
- K-自适应划分方法成功利用单一预后因素识别出具有显著不同结局的多个生存群体。
- 基于重采样的 K 值选择相比固定 K 值方法,能提升模型稳定性并减少过拟合。
- kaps R 包可实现高效且可重复的多路生存划分应用。
- 在结直肠癌数据集中,该方法在识别临床相关亚群方面优于标准的二元递归划分。
- 该算法在真实数据验证中有效检测出能最大化 K 组间生存差异的最优切点。
- 该方法在模拟数据和真实世界生存数据场景中均表现出稳健性和实际应用价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。