[论文解读] Feature-Budgeted Random Forest
本文提出特征预算随机森林(BudgetRF),一种新颖的随机森林算法,可在用户指定的平均特征获取成本约束下最小化预测误差。通过使用贪心极小化最大成本加权基尼不纯度分裂策略,BudgetRF 构建出低成本、高性能的决策树,在基准数据集上的准确率-成本权衡表现优于当前最先进方法。
We seek decision rules for prediction-time cost reduction, where complete data is available for training, but during prediction-time, each feature can only be acquired for an additional cost. We propose a novel random forest algorithm to minimize prediction error for a user-specified {\it average} feature acquisition budget. While random forests yield strong generalization performance, they do not explicitly account for feature costs and furthermore require low correlation among trees, which amplifies costs. Our random forest grows trees with low acquisition cost and high strength based on greedy minimax cost-weighted-impurity splits. Theoretically, we establish near-optimal acquisition cost guarantees for our algorithm. Empirically, on a number of benchmark datasets we demonstrate superior accuracy-cost curves against state-of-the-art prediction-time algorithms.
研究动机与目标
- 解决在推理阶段用户指定平均特征获取成本约束下最小化预测误差的挑战。
- 克服标准随机森林的局限性,后者忽略特征成本,往往不加区分地选择高成本特征。
- 在最小化森林整体特征获取成本的同时,保持高树多样性与泛化性能。
- 设计一种可扩展的贪心算法,支持并行化处理,并可应用于分布式数据库。
- 通过实证结果证明,该方法在准确率-成本权衡方面优于现有预测阶段预算学习算法。
提出的方法
- 提出一种成本加权基尼不纯度分裂准则,采用极小化最大策略,在分类性能与特征获取成本之间实现平衡。
- 使用贪心算法构建每棵决策树,基于最低成本加权基尼不纯度减少量选择分裂点。
- 通过迭代添加低成本、高判别力的树,构建随机森林,直至满足预算约束。
- 引入阈值参数 α 控制树的深度,防止过拟合,α 通过验证集进行调优。
- 确保特征获取具有自适应性:仅在分裂中使用时才获取特征,从而降低每条预测的平均成本。
- 理论分析为单棵树及整个森林提供了接近最优的成本保障。
实验结果
研究问题
- RQ1能否设计一种随机森林,在尊重用户指定的平均特征获取成本约束下最小化预测误差?
- RQ2在树构建过程中引入特征成本,相较于标准随机森林,对泛化性能与成本效率的影响如何?
- RQ3贪心成本加权分裂策略在多大程度上近似最优的成本最小化树结构?
- RQ4所提出方法在准确率-成本权衡方面是否优于当前最先进预测阶段预算学习算法?
- RQ5该方法如何处理具有非线性决策边界的连续型与类别型特征混合数据?
主要发现
- 在 Forest Covertype 数据集上,BudgetRF 在使用 10 棵树时,平均每条测试样本仅使用 23.21% 的特征,而标准随机森林为 63.04%。
- 在 MiniBooNE 数据集上,BudgetRF 实现了 0.0786 的测试误差,平均特征使用率为 57.80%,在高预算条件下优于 ASTC 和 CSTC。
- 在 CIFAR-10 数据集上,BudgetRF 在所有预算水平下均优于 ASTC 和 CSTC,且未观察到过拟合现象;而 ASTC 和 CSTC 的误差在达到某一预算后开始上升。
- 当 α=0 时,测试误差表现具有竞争力(Forest 数据集为 0.1364,MiniBooNE 为 0.0786,CIFAR 为 0.3600),且特征使用率显著低于标准随机森林。
- 该方法对混合数据类型表现出鲁棒性,尤其在非线性决策区域表现优异,而其他方法在此类区域表现较差。
- 实证结果表明,BudgetRF 在四个基准数据集上均实现了更优的准确率-成本曲线,证实了其在成本敏感预测中的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。