[论文解读] K-Adaptive Partitioning for Survival Data with an Application to SEER: The kaps Add-on Package for R
本文提出K自适应分段方法,一种多路生存分析方法,通过最大化最小配对对数秩检验统计量,将预后因素数据划分为K个具有显著不同生存结局的子组。该方法使用置换检验选择最优K值,并在R包'maps'中实现,用于医学研究,使用SEER结直肠癌数据集时,在子组异质性检测方面优于二元递归分段法。
In medical research, it is often needed to obtain subgroups with heterogeneous survivals, which have been predicted from a prognostic factor. For this purpose, a binary split has often been used once or recursively; however, binary partitioning may not provide an optimal set of well separated subgroups. We propose a multi-way partitioning algorithm, which divides the data into K heterogeneous subgroups based on the information from a prognostic factor. The resulting subgroups show significant differences in survival. Such a multi-way partition is found by maximizing the minimum of the subgroup pairwise test statistics. An optimal number of subgroups is determined by a permutation test. Our developed algorithm is compared with two binary recursive partitioning algorithms. In addition, its usefulness is demonstrated with a real data of colorectal cancer cases from the Surveillance Epidemiology and End Results program. We have implemented our algorithm into an R package maps, which is freely available in the Comprehensive R Archive Network (CRAN).
研究动机与目标
- 解决二元递归分段在生成具有异质性生存结局子组方面的局限性。
- 开发一种多路分段算法,基于预后因素识别出K个具有最大差异生存模式的子组。
- 使用基于置换的显著性检验确定最优子组数量(K)。
- 改进生存分析中的子组识别,特别是在大型人群数据集中,适用于临床和流行病学研究。
- 将该方法实现为R包(maps),实现公开访问和可重复研究。
提出的方法
- 该算法通过最大化所有子组对之间最小配对对数秩检验统计量,将生存数据划分为K个子组。
- 采用贪心优化方法,迭代地将观测值分配到K个组,以最大化子组在生存结局上的分离度。
- 通过置换检验确定最优子组数量K,以评估最小配对检验统计量的显著性。
- 通过基于置换的p值估计控制家庭错误率,防止过拟合。
- 该算法已实现在R包'maps'(K-自适应生存数据分段)中,可在CRAN上公开使用。
- 将该方法与两种标准的二元递归分段方法进行比较,以评估子组异质性和统计效能。
实验结果
研究问题
- RQ1多路分段能否产生比二元递归分段更具异质性和统计差异的生存子组?
- RQ2在保持统计显著性的同时,能最大化生存差异的最优子组数量(K)是多少?
- RQ3在真实世界基于人群的癌症数据中,该方法在识别临床相关子组方面表现如何?
- RQ4基于置换的方法能否可靠地确定子组数量而不产生过拟合?
- RQ5与现有的二元分段技术相比,K自适应分段方法在性能上表现如何?
主要发现
- K自适应分段方法成功识别出具有显著不同生存结局的子组,其异质性优于二元递归分段方法。
- 置换检验有效确定了最优子组数量,平衡了模型复杂度与统计显著性。
- 在SEER结直肠癌数据集中,该方法揭示了由预后因素定义的K个子组之间存在明显的生存模式差异,突显了临床意义明确的风险分层。
- 与两种二元递归分段方法相比,该算法在检测子组差异方面表现更优,以最小配对对数秩检验统计量为衡量标准。
- R包'maps'已成功开发并公开发布于CRAN,使该方法在生存分析研究中得以广泛应用。
- 该方法为生存数据提供了一种稳健的非二元替代方案,特别适用于基于人群的癌症研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。