QUICK REVIEW

[논문 리뷰] Trees, forests, and impurity-based variable importance

Erwan Scornet|arXiv (Cornell University)|2020. 01. 13.

Neural Networks and Applications참고 문헌 26인용 수 27

한 줄 요약

이 논문은 랜덤 포레스트에서 널리 사용되는 변수 중요도 측정법인 평균 불순도 감소(MDI)에 대한 최초의 이론적 근거를 제공한다. 입력 변수가 독립적이고 상호작용이 없을 경우 MDI가 반응 변수의 분산 분해를 추정함을 증명하여, 이러한 이상적인 조건 하에서 회귀 트리와 포레스트에서 MDI를 해석하는 데 엄밀한 기반을 마련한다.

ABSTRACT

Tree ensemble methods such as random forests [Breiman, 2001] are very popular to handle high-dimensional tabular data sets, notably because of their good predictive accuracy. However, when machine learning is used for decision-making problems, settling for the best predictive procedures may not be reasonable since enlightened decisions require an in-depth comprehension of the algorithm prediction process. Unfortunately, random forests are not intrinsically interpretable since their prediction results from averaging several hundreds of decision trees. A classic approach to gain knowledge on this so-called black-box algorithm is to compute variable importances, that are employed to assess the predictive impact of each input variable. Variable importances are then used to rank or select variables and thus play a great role in data analysis. Nevertheless, there is no justification to use random forest variable importances in such way: we do not even know what these quantities estimate. In this paper, we analyze one of the two well-known random forest variable importances, the Mean Decrease Impurity (MDI). We prove that if input variables are independent and in absence of interactions, MDI provides a variance decomposition of the output, where the contribution of each variable is clearly identified. We also study models exhibiting dependence between input variables or interaction, for which the variable importance is intrinsically ill-defined. Our analysis shows that there may exist some benefits to use a forest compared to a single tree.

연구 동기 및 목표

랜덤 포레스트에서 표준 변수 중요도 측정법인 평균 불순도 감소(MDI)에 대한 이론적 근거를 제공하기 위해.
특히 이상적인 조건 하에서 회귀 트리와 포레스트의 맥락에서 MDI가 실제로 무엇을 추정하는지 명확히 하기 위해.
입력 변수가 의존적이거나 상호작용이 있을 경우 변수 중요도 개념이 본질적으로 잘 정의되지 않음에 따라 MDI의 한계를 조사하기 위해.
MDI가 출력 분산의 타당한 분해로 해석될 수 있는 조건을 설정하기 위해.
핵심 해석 도구를 이론적 원리에 기반하여 랜덤 포레스트의 해석 가능성에 기여하기 위해.

제안 방법

제어된 조건 하에서 회귀 트리에서 MDI의 이론적 행동을 분석하기 위해 재귀적 분할 프레임워크를 사용한다.
특정 변수(예: $X^{(1)}$ 또는 $X^{(2)}$)에 체계적으로 분할을 할당함으로써 변수 기여도를 분리하는 이론적 트리 구축 방법을 사용한다.
각 변수가 총 출력 분산에 기여하는 정도를 보여주기 위해 분산 분해 기법을 적용한다.
나무의 수준 수 $k \to \infty$로 갈수록 한계 분석을 활용하여 MDI 값의 渐近 표현식을 유도한다.
다양한 트리 구조(예: 모든 분할이 $X^{(1)}$에 대해 이루어지는 경우 vs. 모든 분할이 $X^{(2)}$에 대해 이루어지는 경우) 간의 MDI 값을 비교하여, 동일한 입력 조건 하에서 대칭성과 일관성을 입증한다.
기술적 보조정리를 활용하여, 특정 변수를 따라 분할에 의한 분산 감소 총합이 반응 변수의 주변 분산과 관련된 잘 정의된 양수로 수렴함을 증명한다.

실험 결과

연구 질문

RQ1랜덤 포레스트에서 평균 불순도 감소(MDI)는 실제로 무엇을 측정하는가?
RQ2MDI가 변수 중요도 측정으로서 타당하고 해석 가능한 조건은 무엇인가?
RQ3입력 변수가 의존적이거나 반응 함수에서 상호작용이 있을 경우 MDI는 어떻게 행동하는가?
RQ4MDI가 회귀 트리에서 출력의 분산 분해로 이론적으로 정당화될 수 있는가?
RQ5입력 변수가 상관관계가 있거나 상호작용이 존재할 경우 MDI의 한계는 무엇인가?

주요 결과

입력 변수가 독립적이고 모델에 상호작용이 없을 경우 MDI는 출력의 타당한 분산 분해를 제공한다.
상호작용이 없고 입력이 독립일 경우 각 변수의 MDI 값은 정확히 총 출력 분산에 기여하는 바와 일치한다.
입력 변수가 의존적이거나 상호작용이 있을 경우 변수 중요도 개념 자체가 본질적으로 잘 정의되지 않으며, MDI는 경계 기여도로 의미 있게 해석될 수 없다.
모델이 대칭적일 경우 $Y = X^{(1)} + X^{(2)}$이고, 수준 수가 증가함에 따라 $X^{(1)}$과 $X^{(2)}$의 MDI 값은 $\frac{1}{3} - \frac{1}{3}\left(\frac{1}{4}\right)^\beta$로 渐近 수렴한다.
이론적 분석은 가정된 i.i.d. 및 독립 조건 하에서 MDI가 더 많은 카테고리 또는 빈도가 높은 카테고리의 변수를 편향하지 않음을 확인한다. 다만 이는 상관관계가 있는 특성에는 적용되지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.