[论文解读] Adaptive Concentration of Regression Trees, with Application to Random Forests
本文提出自适应集中度(adaptive concentration)作为分析高维设定下回归树与随机森林的框架,表明拟合后的树会以 $\sqrt{\log(n)\log(d)/k}$ 的速率集中在最优预测器附近。主要贡献在于建立了预测误差的高概率一致界,从而实现自适应生长森林的一致性以及有效的选择后推断。
We study the convergence of the predictive surface of regression trees and forests. To support our analysis we introduce a notion of adaptive concentration for regression trees. This approach breaks tree training into a model selection phase in which we pick the tree splits, followed by a model fitting phase where we find the best regression model consistent with these splits. We then show that the fitted regression tree concentrates around the optimal predictor with the same splits: as d and n get large, the discrepancy is with high probability bounded on the order of sqrt(log(d) log(n)/k) uniformly over the whole regression surface, where d is the dimension of the feature space, n is the number of training examples, and k is the minimum leaf size for each tree. We also provide rate-matching lower bounds for this adaptive concentration statement. From a practical perspective, our result enables us to prove consistency results for adaptively grown forests in high dimensions, and to carry out valid post-selection inference in the sense of Berk et al. [2013] for subgroups defined by tree leaves.
研究动机与目标
- 解决在变量选择自适应的高维稀疏设定下,随机森林缺乏理论一致性保证的问题。
- 为尽管基于数据选择分裂点但仍具鲁棒性的自适应树模型提供理论基础。
- 在自适应分裂规则下,建立回归树对最优对应物的一致收敛性。
- 为由树叶定义的子群效应实现有效的选择后推断,将Berk等人(2013)的研究扩展至树基模型。
- 证明收敛界速率的最优性,填补现有非参数森林理论结果中的空白。
提出的方法
- 将树训练分解为两个阶段:模型选择(从数据中自适应地选择分裂点)和模型拟合(在给定分裂点下估计叶节点均值)。
- 将自适应集中度定义为在给定分裂点条件下,样本平均值与总体平均值在数据叶节点上的统一偏差。
- 利用基于对称化和链式论证的高概率界,证明该偏差以高概率为 $O\left(\sqrt{\log(n)\log(d)/k}\right)$。
- 通过将该界应用于随机森林,将每棵树视为具有数据自适应选择分裂点的模型,证明在温和正则性条件下的一致性。
- 通过使用多重正态近似构造下界,针对一组重叠的叶节点,证明该速率无法进一步改进。
- 利用矩生成函数界将真实响应与辅助响应耦合,从而实现对叶节点估计值的随机比较。
实验结果
研究问题
- RQ1当分裂点从数据中自适应选择时,能否建立拟合回归树与最优回归树之间偏差的高概率一致界?
- RQ2自适应回归树的收敛速率是否随样本量 $n$、维度 $d$ 和最小叶节点大小 $k$ 而有利地变化?
- RQ3所推导的收敛速率是否为速率最优,即是否可进一步改进,或仅与常数因子相差?
- RQ4自适应集中度能否被用于证明不使用保留集进行变量选择的随机森林的一致性?
- RQ5能否为由树叶定义的子群效应构造有效的选择后置信区间,同时考虑数据依赖的模型选择?
主要发现
- 自适应集中度界在所有叶节点上一致成立,且以高概率按 $\sqrt{\log(n)\log(d)/k}$ 的速率扩展。
- 收敛速率是速率最优的,通过构造匹配的下界得到证明,其与上界仅相差一个常数因子。
- 该结果适用于标准随机森林算法,包括CART和Breiman原始的随机森林,无需算法修改。
- 在 $d \to \infty$、$n \to \infty$ 和 $k \to \infty$ 的高维稀疏设定下,建立了自适应生长随机森林的一致性。
- 该框架使叶节点均值响应的有效选择后推断成为可能,将Berk等人(2013)的研究扩展至树基模型。
- 下界构造使用了 $N \sim \exp(\log n \log d / \log 5)$ 个叶节点,其两两交集较小,从而在正态近似中确保非退化的相关结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。