QUICK REVIEW

[論文レビュー] Asymptotic Theory for Random Forests

Stefan Wager|arXiv (Cornell University)|May 2, 2014

Soil Geostatistics and Mapping参考文献 22被引用数 33

ひとこと要約

本稿は、サブサンプルサイズが $ s(n)/n = o(\log(n)^{-d}) $ の割合で増加する条件下で、ランダムフォレストの予測の漸近正規性を確立し、無限小ジャックナイフが漸近分散の一貫した推定を提供することを示している。これらの結果により、信頼区間などの形式的統計的推論がランダムフォレストの予測に対して可能になる。

ABSTRACT

Random forests have proven to be reliable predictive algorithms in many application areas. Not much is known, however, about the statistical properties of random forests. Several authors have established conditions under which their predictions are consistent, but these results do not provide practical estimates of random forest errors. In this paper, we analyze a random forest model based on subsampling, and show that random forest predictions are asymptotically normal provided that the subsample size s scales as s(n)/n = o(log(n)^{-d}), where n is the number of training examples and d is the number of features. Moreover, we show that the asymptotic variance can consistently be estimated using an infinitesimal jackknife for bagged ensembles recently proposed by Efron (2014). In other words, our results let us both characterize and estimate the error-distribution of random forest predictions, thus taking a step towards making random forests tools for statistical inference instead of just black-box predictive algorithms.

研究の動機と目的

予測精度を超えた統計的推論を可能にする、ランダムフォレストの厳密な漸近理論の構築を目的とする。
ランダムフォレストの予測の標本分布および分散に関する理論的理解の不足を解消することを目的とする。
ランダムフォレストの予測が、緩いサブサンプルサイズ条件の下で漸近的に正規分布に従うことを示すこと。
無限小ジャックナイフが、ランダムフォレストの予測の漸近分散の一貫した推定器であることを示すこと。
信頼区間の構築や仮説検定などの推論タスクへのランダムフォレストの利用に基礎を築くこと。

提案手法

理論的取り扱いの容易さを保つために、ブートストラップではなくサブサンプリングに基づくランダムフォレストの分析を行う。
特徴量次元 $ d $ を用いて、条件 $ s(n)/n = o(\log(n)^{-d}) $ の下で予測の漸近正規性を導出する。
Efron (2014) が最近提案した、バギングアンサンブルに適応された無限小ジャックナイフ推定量を用いて、漸近分散を推定する。
理論的枠組みを用いて、与えられたサブサンプルサイズ条件の下で、無限小ジャックナイフによる分散推定が一貫していることを示す。
さまざまな分布（コサイン、XOR、AND）を有する合成データと、実世界のUCIデータセットを用いたシミュレーションにより、手法の妥当性を検証する。
2段階推定手順を採用する：まず無限小ジャックナイフ分散推定値 $ \widehat{V}_{IJ} $ を計算し、次にバイアス、分散、MSEの指標を用いてその精度を評価する。

実験結果

リサーチクエスチョン

RQ1ランダムフォレストの予測が漸近的に正規分布に従うのはどのような条件下か？
RQ2ランダムフォレストの予測の漸近分散を、データから一貫して推定できるか？
RQ3サブサンプルサイズ $ s(n) $ は、漸近正規性および分散推定の正確さにどのように影響するか？
RQ4無限小ジャックナイフは、ランダムフォレストの予測の標本分散を信頼性高くかつ一貫して推定できるか？
RQ5さまざまなデータ生成分布および標本サイズにおいて、分散推定器の性能はどのように変化するか？

主な発見

ランダムフォレストの予測は、サブサンプルサイズが $ s(n)/n = o(\log(n)^{-d}) $ を満たす場合に、漸近的に正規分布に従う。ここで $ d $ は特徴量の数である。
同じサブサンプルサイズ条件の下で、無限小ジャックナイフ推定量はランダムフォレストの予測の漸近分散の一貫した推定を提供する。
シミュレーションの結果、標本サイズ $ n $ が大きくなるにつれて、無限小ジャックナイフによる分散推定値の精度が向上し、コサイン分布およびXOR分布では相対的MSEが減少することが示された。
実世界の小標本データセット（例：auto, forest fires, housing）に対しても、分散推定器は良好な性能を示し、より大きなデータセットでは相対的MSEが0.002未満にとどまる。
高次元性と非リプシッツ連続な条件付き平均を有するAND分布では、誤差の減少が遅く、分散推定の難易度が高いため、推定誤差が大きくなる傾向が見られた。
理論的枠組みは、ランダムフォレストをブラックボックス予測ツールとしてだけでなく、有効な信頼区間や仮説検定を可能にする統計的推論のためのツールとしての利用を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。