QUICK REVIEW

[논문 리뷰] Adaptive Concentration of Regression Trees, with Application to Random Forests

Stefan Wager, Guenther Walther|arXiv (Cornell University)|2015. 03. 22.

Statistical Methods and Inference참고 문헌 32인용 수 130

한 줄 요약

이 논문은 고차원 설정에서 회귀 트리와 랜덤 포레스트를 분석하기 위한 프레임워크로 적응형 농도(adaptive concentration)를 도입하며, 적합된 트리가 최적의 예측자 주위에 $ olimits\sqrt{\log(n)\log(d)/k}$ 의 속도로 집중됨을 보여준다. 주요 기여는 데이터에 따라 적응적으로 선택된 분할을 고려할 때 예측 오차에 대한 고확률 균일한 경계를 제공함으로써, 적응적으로 성장한 포레스트의 일致성과 타당한 선택 후 추론을 가능하게 한다.

ABSTRACT

We study the convergence of the predictive surface of regression trees and forests. To support our analysis we introduce a notion of adaptive concentration for regression trees. This approach breaks tree training into a model selection phase in which we pick the tree splits, followed by a model fitting phase where we find the best regression model consistent with these splits. We then show that the fitted regression tree concentrates around the optimal predictor with the same splits: as d and n get large, the discrepancy is with high probability bounded on the order of sqrt(log(d) log(n)/k) uniformly over the whole regression surface, where d is the dimension of the feature space, n is the number of training examples, and k is the minimum leaf size for each tree. We also provide rate-matching lower bounds for this adaptive concentration statement. From a practical perspective, our result enables us to prove consistency results for adaptively grown forests in high dimensions, and to carry out valid post-selection inference in the sense of Berk et al. [2013] for subgroups defined by tree leaves.

연구 동기 및 목표

변수 선택이 적응적인 고차원 희박 설정에서 랜덤 포레스트에 대한 이론적 일치성 보장의 부족을 해결한다.
데이터 기반 분할 선택에도 불구하고 적응형 트리 기반 모델의 강건성에 대한 이론적 기반을 제공한다.
적응적 분할 규칙 하에서 회귀 트리가 그 최적의 대응체로의 균일 수렴을 확립한다.
트리의 잎에서 정의된 하위군 효과에 대해 선택 후 추론을 타당하게 확장한다. 이는 Berk 등 (2013)의 결과를 트리 기반 모델로 확장한다.
수렴 경계의 최적성(rate-optimality)을 증명하여 기존 비모수적 포레스트 이론 결과의 격차를 메운다.

제안 방법

트리 학습을 두 단계로 분해한다: 모델 선택(데이터로부터 적응적으로 분할을 선택함)과 모델 피팅(분할이 주어진 후 잎 평균 추정함).
적응형 농도를 정의한다. 이는 분할에 조건부한 데이터 잎에서 표본 평균과 모집단 평균 간의 균일한 이탈을 의미한다.
대칭화 및 체이닝 추론 기반의 고확률 경계를 사용하여, 이 이격이 고확률적으로 $O\left(\sqrt{\log(n)\log(d)/k}\right)$ 라고 보여준다.
각 트리를 데이터에 적응적으로 선택된 분할을 가진 모델로 간주하여 이 경계를 랜덤 포레스트에 적용함으로써, 미약한 정규성 조건 하에서 일치성을 증명한다.
중복되는 많은 수의 잎을 갖는 다변량 정규 근사에 기반한 하한을 구성하여, 이 속도가 향상될 수 없음을 보인다.
모멘트 생성 함수 경계를 사용하여 진짜와 보조 반응 변수를 결합함으로써, 잎 수준 추정치의 확률적 비교를 가능하게 한다.

실험 결과

연구 질문

RQ1분할이 데이터로부터 적응적으로 선택될 때, 적합된 트리와 최적의 회귀 트리 간의 이격에 대해 고확률 균일 경계를 설정할 수 있는가?
RQ2적응형 회귀 트리의 수렴 속도는 표본 크기 $n$, 차원 $d$, 최소 잎 크기 $k$ 에 따라 유리하게 스케일링되는가?
RQ3유도된 수렴 속도는 최적성(rate-optimality)을 갖는가? 즉, 이를 향상시킬 수 있거나 상수 인자 이내로 타당한가?
RQ4적응형 농도는 변수 선택에 위한 보류 세트를 사용하지 않는 랜덤 포레스트의 일치성을 증명하는 데 활용될 수 있는가?
RQ5데이터 기반 모델 선택을 고려할 때, 트리의 잎에서 정의된 하위군 효과에 대해 타당한 선택 후 신뢰구간을 구성할 수 있는가?

주요 결과

적응형 농도 경계는 모든 잎에 대해 균일하게 성립하며, 고확률적으로 $ olimits\sqrt{\log(n)\log(d)/k}$ 의 비율로 스케일링된다.
하한 경계가 상한 경계와 상수 인자 이내로 일치함으로써, 이 수렴 속도가 최적임을 보여주며, 이는 최적성의 증명이다.
이 결과는 CART 및 브라이먼의 원래 랜덤 포레스트를 포함한 표준 랜덤 포레스트 알고리즘에 그대로 적용되며, 알고리즘 수정이 필요하지 않다.
적응적으로 성장한 랜덤 포레스트의 일치성이 고차원, 희박 설정에서 $d \to \infty$, $n \to \infty$, $k \to \infty$ 인 경우에 확립된다.
이 프레임워크는 잎 수준 평균 반응에 대한 타당한 선택 후 추론을 가능하게 하며, Berk 등 (2013)의 결과를 트리 기반 모델로 확장한다.
하한 경계 구성은 $N \sim \exp(\log n \log d / \log 5)$ 개의 잎을 사용하며, 이들의 짝별 교차가 작아져 정규 근사에서 비퇴화된 상관관계를 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.