Skip to main content
QUICK REVIEW

[论文解读] Learning and Naming Subgroups with Exceptional Survival Characteristics

Mhd Jawad Al Rahwanji, Sascha Xu|arXiv (Cornell University)|Feb 25, 2026
Statistical Methods and Inference被引用 0
一句话总结

SYSURV 是一种可微分、非参数方法,通过利用个体生存曲线(通过随机生存森林)发现可读规则以选择具有出色生存的子组,在合成数据和真实世界数据(包括颈癌案例研究)中优于基线方法。

ABSTRACT

In many applications, it is important to identify subpopulations that survive longer or shorter than the rest of the population. In medicine, for example, it allows determining which patients benefit from treatment, and in predictive maintenance, which components are more likely to fail. Existing methods for discovering subgroups with exceptional survival characteristics require restrictive assumptions about the survival model (e.g. proportional hazards), pre-discretized features, and, as they compare average statistics, tend to overlook individual deviations. In this paper, we propose Sysurv, a fully differentiable, non-parametric method that leverages random survival forests to learn individual survival curves, automatically learns conditions and how to combine these into inherently interpretable rules, so as to select subgroups with exceptional survival characteristics. Empirical evaluation on a wide range of datasets and settings, including a case study on cancer data, shows that Sysurv reveals insightful and actionable survival subgroups.

研究动机与目标

  • 在时间到事件数据中识别具有出色生存特征的子人群,而不使用受限的模型假设。
  • 学习可解释的特征连词规则,以选择此类子群。
  • 利用个体生存估计来引导子群发现,并使用梯度学习优化规则。
  • 对发现的子群进行事后统计显著性检验。

提出的方法

  • 使用非参数模型(Random Survival Forests)估计的个体生存函数 ˆS(t|x) 来定义子群生存 ˆSQ(t) 。
  • 基于子群与总体在时间上的生存的 L1 距离,在子群内个体的聚合上定义一个异常性度量 ϕ(σ,σD) 。
  • 引入由软条件 ˆπ 构建的可微分软规则 ˆσ,具有可学习的区间边界和特征权重,支持梯度优化。
  • 用带有大小惩罚项 |ˆσ|^γ 的子群规模感知目标 ˆϕ(ˆσ,ˆσD) 进行优化,并在连续学习的子群之间加入多样性正则化。
  • 通过置换检验提供事后统计验证,以评估发现子群的显著性。
  • 通过带温度退火的梯度优化迭代学习子群规则,以获得清晰的区间。

实验结果

研究问题

  • RQ1我们是否可以在不假设比例风险或对特征进行离散化的前提下发现具有出色生存的子群?
  • RQ2个体生存估计是否比群体平均值提供更敏感的信号来反映子群的异常性?
  • RQ3可微分规则学习器是否能在合成和真实世界数据集中可靠地识别出可操作、可读的人类可解释子群?
  • RQ4SYSURV 发现的子群在基准数据集上相对于最先进的生存子群方法的表现如何?
  • RQ5在实际应用中发现的子群的统计显著性是多少?

主要发现

  • SYSURV 在合成数据上持续优于 RULEKIT、FIBERS 和 ESMAMDS,在恢复植入子群方面具有更高的 F1 分数并对删失具有鲁棒性。
  • SYSURV 在13个真实数据集上取得良好表现,在多项指标(目标、Logrank、均值偏移)上获得最佳平均排名。
  • 颈癌案例研究显示 SYSURV 发现的子群在生物学上具有意义,与已知生物标志物一致,并且还发现了需要进一步研究的新子群。
  • 子群可用详细、可解释的规则描述(如年龄、替换率、任期、工资等)来关联生存差异。
  • 基于置换的显著性检验和 Bonferroni 校正为发现的子群提供事后统计保障。
  • 在高删失情形下方法仍然有效,且可扩展到高维特征空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。