[论文解读] ggRandomForests: Exploring Random Forest Survival
本文介绍了 ggRandomForests R 包,以增强使用 randomForestSRC 构建的随机生存森林(RSF)的可解释性。该包通过 ggplot2 实现变量重要性、最小深度、依赖图和条件交互作用的可视化探索,展示了在 PBC 肝病数据集上,通过交互式、可自定义的可视化手段,显著提升了对生存预测中时间-事件数据的理解。
Random forest (Leo Breiman 2001a) (RF) is a non-parametric statistical method requiring no distributional assumptions on covariate relation to the response. RF is a robust, nonlinear technique that optimizes predictive accuracy by fitting an ensemble of trees to stabilize model estimates. Random survival forests (RSF) (Ishwaran and Kogalur 2007; Ishwaran et al. 2008) are an extension of Breimans RF techniques allowing efficient nonparametric analysis of time to event data. The randomForestSRC package (Ishwaran and Kogalur 2014) is a unified treatment of Breimans random forest for survival, regression and classification problems. Predictive accuracy makes RF an attractive alternative to parametric models, though complexity and interpretability of the forest hinder wider application of the method. We introduce the ggRandomForests package, tools for visually understand random forest models grown in R (R Core Team 2014) with the randomForestSRC package. The ggRandomForests package is structured to extract intermediate data objects from randomForestSRC objects and generate figures using the ggplot2 (Wickham 2009) graphics package. This document is structured as a tutorial for building random forest for survival with the randomForestSRC package and using the ggRandomForests package for investigating how the forest is constructed. We analyse the Primary Biliary Cirrhosis of the liver data from a clinical trial at the Mayo Clinic (Fleming and Harrington 1991). Our aim is to demonstrate the strength of using Random Forest methods for both prediction and information retrieval, specifically in time to event data settings.
研究动机与目标
- 解决复杂随机生存森林模型在时间-事件数据中可解释性的挑战。
- 开发一个模块化、可扩展的 R 包(ggRandomForests),将数据提取与可视化分离,以增强用户控制力。
- 使研究人员能够使用标准化、可自定义的 ggplot2 图形,探索生存森林中的变量重要性、最小深度和依赖结构。
- 在原发性胆汁性肝硬化(PBC)数据集上展示这些工具的实用性,揭示非线性和非比例风险效应。
- 提供一个教程框架,将 ggRandomForests 与 randomForestSRC 集成,用于预测建模和解释性分析。
提出的方法
- ggRandomForests 包从 randomForestSRC 森林对象中提取中间数据对象,用于后续可视化。
- 使用 ggplot2 图形系统生成每种可视化类型的自包含、可修改的 ggplot2 对象。
- 计算并可视化变量重要性(VIMP)和最小深度,以基于其对生存预测的贡献对预测变量进行排序。
- 生成变量依赖图和部分依赖图,以可视化协变量与生存结果之间的边际关系和调整后关系。
- 使用条件依赖图(coplots)通过其他协变量的取值水平来探索变量间的交互作用。
- 该包支持通过标准 ggplot2 函数进行自定义修改,如添加标签、调整颜色方案和光滑参数。
实验结果
研究问题
- RQ1如何通过生存建模中的可视化分析提升随机生存森林的可解释性?
- RQ2VIMP 和最小深度在多大程度上识别出相同的高重要性预测变量?
- RQ3依赖图能够揭示协变量与生存结果之间的哪些非线性和非比例风险关系?
- RQ4变量交互作用如何影响生存预测?能否通过条件依赖图有效可视化?
- RQ5ggRandomForests 包能否为 R 中的模型解释和自定义可视化提供灵活且可扩展的工作流程?
主要发现
- 依赖图显示,血清胆红素(bili)与死亡风险显著相关,尤其在 3 年随访时,表明存在非比例风险。
- 部分依赖图显示,随着胆红素、铜、凝血酶原时间和年龄的增加,生存率下降,而白蛋白水平升高则与更好的生存相关。
- 依赖图中的 loess 平滑曲线揭示了非线性关系,特别是胆红素和凝血酶原,这些关系难以被参数模型捕捉。
- 最小深度分析将胆红素和白蛋白识别为最重要的预测变量,与临床预期及 VIMP 排名一致。
- 条件依赖图显示,高水肿状态患者的胆红素对生存风险的影响被放大,表明存在显著的交互作用。
- 该包成功实现了在单张图表中对多个连续变量的面板可视化,显著提升了对协变量效应的比较性解读。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。