QUICK REVIEW

[论文解读] Quantifying Uncertainty in Random Forests via Confidence Intervals and Hypothesis Tests

Lucas Mentch, Giles Hooker|arXiv (Cornell University)|Apr 25, 2014

Machine Learning and Data Classification参考文献 31被引用 157

一句话总结

本文通过将基于子样本的集成预测视为U统计量，提出了一种用于随机森林的正式统计推断框架，实现了渐近正态的预测结果和一致的方差估计。其主要贡献在于无需额外计算成本即可计算置信区间并执行特征重要性的假设检验。

ABSTRACT

This work develops formal statistical inference procedures for machine learning ensemble methods. Ensemble methods based on bootstrapping, such as bagging and random forests, have improved the predictive accuracy of individual trees, but fail to provide a framework in which distributional results can be easily determined. Instead of aggregating full bootstrap samples, we consider predicting by averaging over trees built on subsamples of the training set and demonstrate that the resulting estimator takes the form of a U-statistic. As such, predictions for individual feature vectors are asymptotically normal, allowing for confidence intervals to accompany predictions. In practice, a subset of subsamples is used for computational speed; here our estimators take the form of incomplete U-statistics and equivalent results are derived. We further demonstrate that this setup provides a framework for testing the significance of features. Moreover, the internal estimation method we develop allows us to estimate the variance parameters and perform these inference procedures at no additional computational cost. Simulations and illustrations on a real dataset are provided.

研究动机与目标

开发监督学习集成模型（特别是随机森林）预测结果的正式统计推断程序。
解决袋装法和随机森林中缺乏不确定性量化的问题，这些方法通常仅提供点估计。
利用严谨的统计框架，为个体预测构建置信区间，并对特征重要性进行假设检验。
证明在弱正则性条件下，基于子样本的集成方法可产生渐近正态的预测结果。
提供一致的、内部的方差估计方法，其计算成本与标准训练过程相同，不增加额外开销。

提出的方法

将随机森林重新表述为基于训练数据子样本（无放回抽样）训练的树集合，而非完整的自助样本。
证明由此产生的预测估计量为U统计量，利用霍夫丁关于U统计量的理论实现渐近正态性。
在弱正则性条件下推导预测结果的渐近正态性，从而可通过标准正态分位数构造置信区间。
利用集成结构内部信息一致估计渐近方差，无需额外的模型拟合或重采样。
通过比较完整模型与特征被置换或移除后的模型的预测结果，构建特征重要性的检验统计量。
应用不完全U统计量理论，以有限且固定的子样本数量实现高效计算的实际应用。

实验结果

研究问题

RQ1鉴于随机森林的非参数性和算法特性，是否可以对其预测结果进行正式的统计推断？
RQ2基于子样本的集成方法（子袋法）的预测结果是否具有已知的极限分布，从而支持置信区间的构建？
RQ3是否可以在随机森林框架内，利用相同的底层统计结构构建特征重要性的假设检验？
RQ4是否可能在不增加计算成本的前提下，一致地估计预测结果的方差？
RQ5在实际应用中，所提出的推断框架与标准随机森林预测相比表现如何？

主要发现

在弱正则性条件下，基于子样本的随机森林预测结果渐近服从正态分布，从而可构造置信区间。
可通过集成结构内部信息一致估计预测结果的方差，无需额外计算，仅需标准训练过程。
通过比较包含和不包含特定特征的模型的预测结果，可构建特征重要性的假设检验，p值基于检验统计量的渐近正态性获得。
在eBird数据集中，月份和年份均被发现是鸟类数量的显著预测因子，检验统计量分别为109.72和109.72。
即使在有限数量的子样本下，该方法仍表现良好，因为不完全U统计量理论确保了在实际实现约束下的有效推断。
该框架具有通用性，适用于任何满足U统计量收敛条件的监督集成方法，不仅限于基于树的随机森林。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。