[论文解读] Guided Random Forest in the RRF Package
本文提出Guided Random Forest (GRF),一种可并行化的特征选择方法,利用标准随机森林的特征重要性得分来指导树的构建,显著减少特征数量的同时提升分类准确率。在10个高维基因数据集上,GRF-RF(基于GRF选择特征的随机森林)在9个数据集中优于完整RF,其中7个在0.05显著性水平下具有统计学显著性。
Random Forest (RF) is a powerful supervised learner and has been popularly used in many applications such as bioinformatics. In this work we propose the guided random forest (GRF) for feature selection. Similar to a feature selection method called guided regularized random forest (GRRF), GRF is built using the importance scores from an ordinary RF. However, the trees in GRRF are built sequentially, are highly correlated and do not allow for parallel computing, while the trees in GRF are built independently and can be implemented in parallel. Experiments on 10 high-dimensional gene data sets show that, with a fixed parameter value (without tuning the parameter), RF applied to features selected by GRF outperforms RF applied to all features on 9 data sets and 7 of them have significant differences at the 0.05 level. Therefore, both accuracy and interpretability are significantly improved. GRF selects more features than GRRF, however, leads to better classification accuracy. Note in this work the guided random forest is guided by the importance scores from an ordinary random forest, however, it can also be guided by other methods such as human insights (by specifying $λ_i$). GRF can be used in "RRF" v1.4 (and later versions), a package that also includes the regularized random forest methods.
研究动机与目标
- 为解决基因表达数据中高维特征空间带来的挑战,标准随机森林在可解释性与计算效率方面表现不佳。
- 开发一种基于标准随机森林特征重要性得分来指导树构建的特征选择方法,以提升模型准确率与稀疏性。
- 克服Guided Regularized Random Forest (GRRF)中树序列构建的局限性,该方法限制了并行化并增加了树之间的相关性。
- 在保持特征相关性的同时实现树的并行计算,并通过重要性加权的分裂准则减少冗余。
提出的方法
- GRF通过将标准随机森林中获得的归一化重要性得分乘以节点处的基尼不纯度增益,对每个节点的增益进行加权:$ gain_G(X_i) = \lambda_i \cdot gain(X_i) $。
- 加权因子 $ \lambda_i $ 定义为 $ \lambda_i = 1 - \gamma + \gamma \cdot \frac{Imp_i}{Imp^*} $,其中 $ \gamma \in [0,1] $ 控制重要性得分的影响程度。
- 在本研究中,使用 $ \gamma = 1 $,因此 $ \lambda_i = \frac{Imp_i}{Imp^*} $,有效对低重要性特征施加更重的惩罚。
- GRF中的树独立构建,支持完全并行化,而GRRF因顺序构建树而存在高相关性问题。
- 通过识别GRF集成中所有树中被最频繁使用的特征,完成特征选择。
- 最终模型在GRF选择的特征子集上应用标准随机森林,该模型称为GRF-RF。
实验结果
研究问题
- RQ1基于随机森林重要性得分的特征选择方法,是否能在降低特征维度的同时提升分类准确率?
- RQ2像GRF这样可并行化的特征选择方法,是否在准确率与计算效率方面优于GRRF等序列方法?
- RQ3GRF-RF(基于GRF选择特征的随机森林)在高维基因表达数据上是否比标准随机森林更准确?
- RQ4将归一化重要性得分作为惩罚项使用,如何影响特征选择与模型性能?
主要发现
- GRF-RF在10个高维基因数据集中的9个上显著优于标准随机森林,其中7个差异在0.05显著性水平下具有统计学意义。
- 在模拟数据集中,GRF平均仅选择196个特征(共500个),而标准RF使用全部500个特征;GRF-RF的误分类数为34,而完整RF为54。
- GRF在所有数据集中选择的特征数均少于GRRF,且GRF-RF在全部10个数据集中的错误率始终低于GRRF与GRRF-RF。
- GRF-RF的错误率低于GRF本身,表明在GRF选择的特征上应用标准随机森林,性能优于将GRF作为独立分类器使用。
- GRF选择的特征数量显著少于标准RF,大多数数据集中特征使用中位数减少至一半以下,从而增强了模型的可解释性。
- 该方法对参数选择不敏感:使用 $ \gamma = 1 $(对低重要性特征施加最大惩罚)即可获得优异结果而无需调参,表明其在实际应用中具有良好的实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。