Skip to main content
QUICK REVIEW

[论文解读] Analysis of purely random forests bias

Sylvain Arlot, Robin Genuer|arXiv (Cornell University)|Jul 15, 2014
Statistical Methods and Inference参考文献 21被引用 47
一句话总结

本文分析了回归中纯随机森林(PRF)的近似偏差,表明在正则条件下,无限PRF的偏差减少速度优于单棵决策树。本文推导了达到无限森林风险率所需的最少树数,将PRF偏差与核估计器关联,并建立了树数越多收敛越快的结论。

ABSTRACT

Random forests are a very effective and commonly used statistical method, but their full theoretical analysis is still an open problem. As a first step, simplified models such as purely random forests have been introduced, in order to shed light on the good performance of random forests. In this paper, we study the approximation error (the bias) of some purely random forest models in a regression framework, focusing in particular on the influence of the number of trees in the forest. Under some regularity assumptions on the regression function, we show that the bias of an infinite forest decreases at a faster rate (with respect to the size of each tree) than a single tree. As a consequence, infinite forests attain a strictly better risk rate (with respect to the sample size) than single trees. Furthermore, our results allow to derive a minimum number of trees sufficient to reach the same rate as an infinite forest. As a by-product of our analysis, we also show a link between the bias of purely random forests and the bias of some kernel estimators.

研究动机与目标

  • 理解回归中纯随机森林(PRF)的近似偏差,作为随机森林的简化模型。
  • 分析树的数量如何影响PRF中的偏差与风险,特别是无限树情况下的极限行为。
  • 推导出足以实现与无限森林相同偏差率的最少树数。
  • 将PRF偏差与核估计器偏差联系起来,为PRF性能提供理论洞见。

提出的方法

  • 研究采用回归框架,其中回归函数在[0,1]^d上有界且为Hölder连续。
  • 分析使用与数据无关的随机划分机制的PRF,各维度采用均匀随机分割。
  • 将偏差分解为两部分:一部分来自划分机制,另一部分来自叶节点的局部平均。
  • 应用浓度不等式并优化树深以界定偏差,利用引理19–21的结果。
  • 推导出偏差的上界,其衰减速率为n^{-4/5}(无限森林情形),快于单棵树。
  • 通过证明在特定条件下偏差结构等价,将偏差与核估计器联系起来。

实验结果

研究问题

  • RQ1随着树数增加,纯随机森林的偏差与单棵树的偏差相比如何?
  • RQ2为实现与无限森林相同的偏差率,所需的最优树数是多少?
  • RQ3PRF的偏差如何随样本量n和树深变化?
  • RQ4PRF偏差与核估计器偏差之间存在何种理论联系?
  • RQ5在正则性假设下,能否界定PRF偏差并证明其收敛速度优于单棵树?

主要发现

  • 无限纯随机森林的偏差随样本量n以O(n^{-4/5})的速率衰减,快于单棵树。
  • 这表明在Hölder连续回归函数下,无限森林的期望风险率严格优于单棵树。
  • 推导出一个最少树数,确保有限森林能达到与无限森林相同的偏差率。
  • PRF偏差在结构上等价于某些核估计器的偏差,建立了理论联系。
  • 由于树间平均效应,PRF偏差的收敛速度优于单棵树。
  • 分析给出了显式的偏差上界,其依赖于回归函数的光滑度和树的数量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。