Skip to main content
QUICK REVIEW

[论文解读] Trees, forests, and impurity-based variable importance

Erwan Scornet|arXiv (Cornell University)|Jan 13, 2020
Neural Networks and Applications参考文献 26被引用 27
一句话总结

本文首次为随机森林中广泛使用的变量重要性度量方法——平均不纯度减少(MDI)提供了理论依据。证明了当输入变量相互独立且不存在交互作用时,MDI估计的是响应变量的方差分解,为在这些理想条件下解释回归树与随机森林中的MDI提供了严谨基础。

ABSTRACT

Tree ensemble methods such as random forests [Breiman, 2001] are very popular to handle high-dimensional tabular data sets, notably because of their good predictive accuracy. However, when machine learning is used for decision-making problems, settling for the best predictive procedures may not be reasonable since enlightened decisions require an in-depth comprehension of the algorithm prediction process. Unfortunately, random forests are not intrinsically interpretable since their prediction results from averaging several hundreds of decision trees. A classic approach to gain knowledge on this so-called black-box algorithm is to compute variable importances, that are employed to assess the predictive impact of each input variable. Variable importances are then used to rank or select variables and thus play a great role in data analysis. Nevertheless, there is no justification to use random forest variable importances in such way: we do not even know what these quantities estimate. In this paper, we analyze one of the two well-known random forest variable importances, the Mean Decrease Impurity (MDI). We prove that if input variables are independent and in absence of interactions, MDI provides a variance decomposition of the output, where the contribution of each variable is clearly identified. We also study models exhibiting dependence between input variables or interaction, for which the variable importance is intrinsically ill-defined. Our analysis shows that there may exist some benefits to use a forest compared to a single tree.

研究动机与目标

  • 为随机森林中标准的变量重要性度量方法——平均不纯度减少(MDI)提供理论依据。
  • 阐明在回归树与随机森林背景下,MDI在理想化条件下实际估计的内容。
  • 研究当输入变量存在依赖关系或交互作用时,MDI的局限性,此时变量重要性本质上是定义不清的。
  • 确立MDI可被解释为输出方差有效分解的条件。
  • 通过将关键可解释性工具建立在理论基础之上,促进随机森林的可解释性。

提出的方法

  • 在受控条件下,利用递归划分框架分析MDI在回归树中的理论行为。
  • 采用理论树构造方法,系统性地将分裂分配给特定变量(如 $X^{(1)}$ 或 $X^{(2)}$),以隔离各变量的贡献。
  • 应用方差分解技术,表明MDI对应于每个变量对总输出方差的贡献。
  • 通过极限分析,当树的层级数 $k \to \infty$ 时,推导MDI值的渐近表达式。
  • 比较不同树结构(如所有分裂在 $X^{(1)}$ 上 vs. 所有分裂在 $X^{(2)}$ 上)下的MDI值,以证明在输入变量独立同分布时的对称性与一致性。
  • 利用技术引理证明,沿某一变量进行分裂所导致的总方差减少量收敛到与响应变量边际方差相关的确定性量。

实验结果

研究问题

  • RQ1平均不纯度减少(MDI)在随机森林中实际估计的是什么?
  • RQ2在何种条件下,MDI是变量重要性的一个有效且可解释的度量?
  • RQ3当输入变量存在依赖关系或在响应函数中存在交互作用时,MDI的行为如何?
  • RQ4MDI能否在理论上被证明为回归树中输出方差的分解?
  • RQ5当输入变量相关或存在交互作用时,MDI存在哪些局限性?

主要发现

  • 当输入变量相互独立且模型中无交互作用时,MDI对输出的方差分解具有有效性。
  • 在无交互作用且输入变量独立的条件下,每个变量的MDI值恰好对应其对总输出方差的贡献。
  • 当输入变量存在依赖关系或交互作用时,变量重要性的概念本质上是定义不清的,此时MDI无法有意义地解释为边际贡献。
  • 在对称模型 $Y = X^{(1)} + X^{(2)}$ 中,随着树层级数增加,$X^{(1)}$ 和 $X^{(2)}$ 的MDI值渐近收敛至 $\frac{1}{3} - \frac{1}{3}\left(\frac{1}{4}\right)^\beta$。
  • 理论分析证实,在假设的独立同分布和独立性条件下,MDI不会偏向具有更多类别或更高频类别变量,尽管这一结论不适用于相关特征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。