[论文解读] Random Forests, Decision Trees, and Categorical Predictors: The "Absent Levels" Problem
本文识别并分析了基于决策树的模型(如随机森林)中的“缺失水平”问题,即在推理过程中出现未见过的分类特征水平时,由于训练时未包含这些水平导致分裂行为未定义,从而引发系统性偏差。作者通过真实案例和实证测试表明,简单的启发式方法——尤其是随机启发式方法——比默认的朴素方法更能有效缓解这种偏差,而后者存在系统性缺陷。
One advantage of decision tree based methods like random forests is their ability to natively handle categorical predictors without having to first transform them (e.g., by using feature engineering techniques). However, in this paper, we show how this capability can lead to an inherent "absent levels" problem for decision tree based methods that has never been thoroughly discussed, and whose consequences have never been carefully explored. This problem occurs whenever there is an indeterminacy over how to handle an observation that has reached a categorical split which was determined when the observation in question's level was absent during training. Although these incidents may appear to be innocuous, by using Leo Breiman and Adele Cutler's random forests FORTRAN code and the randomForest R package (Liaw and Wiener, 2002) as motivating case studies, we examine how overlooking the absent levels problem can systematically bias a model. Furthermore, by using three real data examples, we illustrate how absent levels can dramatically alter a model's performance in practice, and we empirically demonstrate how some simple heuristics can be used to help mitigate the effects of the absent levels problem until a more robust theoretical solution is found.
研究动机与目标
- 识别并形式化基于决策树的模型中的“缺失水平”问题,即在推理过程中出现但训练时未出现的分类预测变量水平,导致行为未定义。
- 证明该问题在模型预测中引发系统性偏差,尤其在广泛使用的实现中,如 randomForest R 包和 Breiman 与 Cutler 的 FORTRAN 代码。
- 使用三个真实世界数据集,通过实证评估缺失水平对模型性能的影响,表明若未妥善处理,性能会显著下降。
- 提出并评估实用的启发式方法(如随机、多数、独热编码),以缓解缺失水平问题,直至开发出稳健的理论解决方案。
- 倡导在软件和用户层面进行改进,包括特征工程和采用可靠启发式方法(如随机方法),以避免生产系统中出现偏差预测。
提出的方法
- 本研究以 Breiman 和 Cutler 的原始随机森林 FORTRAN 代码以及广泛使用的 randomForest R 包为案例研究,分析当前实践中如何处理缺失水平问题。
- 作者在三个真实世界数据集上模拟缺失水平问题,通过在推理阶段引入此前未见过的分类水平,评估模型行为和性能下降情况。
- 评估了多种处理缺失水平的启发式方法:左/右分裂(默认朴素选择)、停止预测、基于距离的插补(DBI)、多数、随机和独热编码。
- 使用对数损失衡量性能,并通过 1,000 次实验重复来评估每种启发式方法的稳健性和一致性。
- 由于随机启发式方法表现一致且易于与现有 randomForest R 包工作流集成,因此作为即插即用解决方案实现。
- 将启发式方法的性能与基线朴素方法进行比较,并评估偏差、方差和预测准确率之间的权衡。
实验结果
研究问题
- RQ1在推理过程中出现此前未见过的分类水平时,如何影响基于决策树的模型(如随机森林)的行为和性能?
- RQ2为何随机森林的默认实现(如 randomForest R 包)在面对缺失分类水平时会产生系统性偏差?
- RQ3在多种真实世界数据集中,哪些处理缺失水平的启发式策略能产生最稳健和准确的预测?
- RQ4在缺乏训练阶段数据的情况下,简单的实用启发式方法是否能优于默认的朴素策略(如左/右分裂)?
- RQ5特征工程在多大程度上能缓解缺失水平问题?在何种情况下其效果可能不如基于启发式的方法?
主要发现
- 缺失水平问题在随机森林和决策树中导致系统性偏差,而默认实现(如 randomForest R 包和 Breiman 与 Cutler 的 FORTRAN 代码)在遇到未见水平时会任意选择左或右分裂。
- 左分裂和右分裂启发式方法的对数损失分别比表现最佳的缺失数据启发式方法差 0.7% 和 1.9%,表明存在可测量且一致的偏差。
- 多数和随机启发式方法在 999 次实验中优于所有其他缺失数据启发式方法,实现了最小的对数损失,表现出高度可靠性。
- 独热编码启发式方法偶尔优于缺失数据启发式方法,但平均而言其对数损失比最佳启发式方法高出 4.5%,表明性能欠佳。
- 随机启发式方法表现稳定、易于实现,被推荐作为软件和用户层面缓解问题的临时标准。
- 该问题不仅影响预测,还影响下游任务,如变量重要性计算、异常值检测和树模型中的插补,表明其在机器学习流水线中具有广泛影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。