QUICK REVIEW

[論文レビュー] Adaptive Concentration of Regression Trees, with Application to Random Forests

Stefan Wager, Guenther Walther|arXiv (Cornell University)|Mar 22, 2015

Statistical Methods and Inference参考文献 32被引用数 130

ひとこと要約

本稿では、高次元設定における回帰木およびランダムフォレストの分析のためのフレームワークとして、適応的集中（adaptive concentration）を導入し、適合された木が最適予測子のまわりに、$\sqrt{\log(n)\log(d)/k}$ のレートで集中することを示している。主な貢献は、予測誤差の高確率一様バインディングを確立することで、適応的に成長するフォレストにおける一貫性および有効な選択後推論を可能にすることにある。

ABSTRACT

We study the convergence of the predictive surface of regression trees and forests. To support our analysis we introduce a notion of adaptive concentration for regression trees. This approach breaks tree training into a model selection phase in which we pick the tree splits, followed by a model fitting phase where we find the best regression model consistent with these splits. We then show that the fitted regression tree concentrates around the optimal predictor with the same splits: as d and n get large, the discrepancy is with high probability bounded on the order of sqrt(log(d) log(n)/k) uniformly over the whole regression surface, where d is the dimension of the feature space, n is the number of training examples, and k is the minimum leaf size for each tree. We also provide rate-matching lower bounds for this adaptive concentration statement. From a practical perspective, our result enables us to prove consistency results for adaptively grown forests in high dimensions, and to carry out valid post-selection inference in the sense of Berk et al. [2013] for subgroups defined by tree leaves.

研究の動機と目的

変数選択が適応的である高次元的・スパースな設定において、ランダムフォレストに対する理論的一致保証の欠如に対処する。
データに依存する分割選択にもかかわらず、適応的木ベースモデルの頑健性の理論的基盤を提供する。
適応的分割ルールの下で、回帰木がその最適対応物に一様収束することを確立する。
木の葉によって定義されるサブグループ効果のための有効な選択後推論を可能にする。Berkら（2013）の結果を木ベースモデルに拡張する。
収束バインディングのレート最適性を証明し、従来の非パラメトリックフォレスト理論におけるギャップを埋める。

提案手法

木の学習を二段階に分解する：モデル選択（データから適応的に分割を選ぶ）とモデル適合（分割が与えられたもとでの葉の平均を推定する）。
適応的集中を、分割が与えられたもとでのデータの葉における標本平均と母平均の均一な乖離として定義する。
シンメトリゼーションとチェインジングの議論に基づく高確率バインディングを用いて、乖離が高確率で $O\left(\sqrt{\log(n)\log(d)/k}\right)$ であることを示す。
各木をデータに適応的に選ばれた分割を持つモデルとして扱い、ランダムフォレストにこのバインディングを適用することで、弱い正則性条件の下での一貫性を証明する。
重なり合う多数の葉を含む多変量正規近似を用いた下界構築により、このレートは改善できないことを示す。
モーメント生成関数のバインディングを用いて真の応答と補助的応答を結合し、葉レベルの推定値の確率的比較を可能にする。

実験結果

リサーチクエスチョン

RQ1分割がデータから適応的に選ばれる場合、適合された木と最適木との間の乖離に対して、高確率一様バインディングを確立できるか？
RQ2適応的回帰木の収束レートは、標本サイズ $n$、次元 $d$、最小葉サイズ $k$ に対して、どのようにスケーリングされるか？
RQ3導出された収束レートは、最適性を満たしているか、すなわち定数因子を除いてタイトか？
RQ4適応的集中を活用して、変数選択にホールドアウトセットを用いないランダムフォレストの一貫性を証明できるか？
RQ5データに依存するモデル選択を考慮に入れながら、木の葉によって定義されるサブグループ効果のための有効な選択後信頼区間を構築できるか？

主な発見

適応的集中バインディングはすべての葉に一様に成立し、高確率で $\sqrt{\log(n)\log(d)/k}$ のスケーリングを示す。
下界が上界と定数因子を除いて一致することから、収束レートは最適性を満たす。
CART やブライマンのオリジナルランダムフォレストを含む、標準的なランダムフォレストアルゴリズムに対しても適用可能であり、アルゴリズムの変更を要しない。
$d \to \infty$、$n \to \infty$、$k \to \infty$ となる高次元的・スパースな設定において、適応的に成長するランダムフォレストの一貫性が確立される。
このフレームワークにより、葉レベルの平均応答に対する有効な選択後推論が可能になり、Berk ら（2013）の結果が木ベースモデルに拡張される。
下界構築では、$N \sim \exp(\log n \log d / \log 5)$ 個の葉を用い、対ごとの交差が小さくなるように設計することで、正規近似における非退化した相関構造を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。