Skip to main content
QUICK REVIEW

[論文レビュー] Standard Errors for Bagged Predictors and Random Forests

Stefan Wager, Trevor Hastie|arXiv (Cornell University)|Nov 18, 2013
Machine Learning and Algorithms被引用数 4
ひとこと要約

本稿では、ブートストラップ法と無限小ジャックナイフ(IJ)法の改良を通じて、バギング予測子およびランダムフォレストの標準誤差を計算的に効率的な推定器で推定する手法を提案する。新しい推定器は、従来のO(n^1.5)からO(n)のブートストラップ再サンプリングで収束可能であり、ジャックナイフ法と比較してIJ推定器は1.7倍少ない再サンプリングで同等の精度を達成する。これにより、精度を維持したまま計算コストを顕著に削減できる。

ABSTRACT

We study the variability of predictions made by bagged learners and random forests, and show how to estimate standard errors for these methods. Our work builds on variance estimates for bagging proposed by Efron (1992, 2012) that are based on the jackknife and the infinitesimal jackknife (IJ). In practice, bagged predictors are computed using a finite number B of bootstrap replicates, and working with a large B can be computationally expensive. Direct applications of jackknife and IJ estimators to bagging require B on the order of n^{1.5} bootstrap replicates to converge, where n is the size of the training set. We propose improved versions that only require B on the order of n replicates. Moreover, we show that the IJ estimator requires 1.7 times less bootstrap replicates than the jackknife to achieve a given accuracy. Finally, we study the sampling distributions of the jackknife and IJ variance estimates themselves. We illustrate our findings with multiple experiments and simulation studies.

研究の動機と目的

  • バギング予測子およびランダムフォレストにおける標準誤差推定の高い計算コストを軽減すること。
  • バギングのための既存のジャックナイフおよび無限小ジャックナイフ(IJ)分散推定器を改善し、必要なブートストラップ再サンプリング回数を削減すること。
  • IJ推定器が、同等の精度を得るためにジャックナイフ法よりも少ないブートストラップ標本サイズで効率的であることを示すこと。
  • ジャックナイフ法およびIJ法が生成する分散推定値の標本分布を分析すること。
  • 実世界のバギングモデル応用に適した実用的でスケーラブルな分散推定技術を提供すること。

提案手法

  • バギング予測子およびランダムフォレストに特化した、修正されたジャックナイフおよび無限小ジャックナイフ(IJ)推定器を提案する。
  • 従来の方法がO(n^1.5)を要するのに対し、新しい推定器がO(n)のブートストラップ再サンプリングで収束するための理論的条件を導出する。
  • 影響関数および経験過程理論を用いて、新しい推定器の一貫性および効率性を裏付ける。
  • シミュレーションスタディを通じて、さまざまなブートストラップ標本サイズにおける収束速度および精度を比較し、推定器を実装・検証する。
  • 推定値の標本分布を分析し、その信頼性および安定性を評価する。

実験結果

リサーチクエスチョン

  • RQ1バギング予測子の標準誤差推定を、精度を損なわずに計算的に効率的に行うことは可能か?
  • RQ2バギングモデルに適用した場合、ジャックナイフ法とIJ推定器の収束速度はどのように比較できるか?
  • RQ3改良されたジャックナイフおよびIJ法を用いた信頼性のある分散推定に必要な最小ブートストラップ再サンプリング回数はどの程度か?
  • RQ4有限のブートストラップ標本サイズ下で、ジャックナイフおよびIJ分散推定値の標本分布はどのように振る舞うか?
  • RQ5IJ推定器は、少ないブートストラップ再サンプリング回数でジャックナイフ法と同等の精度を達成できるか?

主な発見

  • 提案された改良ジャックナイフおよびIJ推定器は、O(n)のブートストラップ再サンプリングで収束可能であり、従来のO(n^1.5)から計算負荷を大幅に軽減できる。
  • IJ推定器は、ジャックナイフ法と同等の精度を達成するためのブートストラップ再サンプリング回数を1.7倍も削減でき、優れた効率性を示している。
  • 提案された推定器下では、ジャックナイフおよびIJ分散推定値の標本分布は、ほぼ正規分布に従うことが確認され、推論用途に適している。
  • シミュレーションスタディにより、新しい推定器は中程度のブートストラップ標本サイズでも低いバイアスと良好な精度を維持することが確認された。
  • さまざまなデータ生成メカニズムおよびモデルの複雑さに対して、改良された推定器は頑健であり、実用的導入に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。