QUICK REVIEW

[論文レビュー] Asymptotic Distributions and Rates of Convergence for Random Forests and other Resampled Ensemble Learners.

Wei Peng, Tim Coleman|arXiv (Cornell University)|May 25, 2019

Neural Networks and Applications参考文献 21被引用数 7

ひとこと要約

この論文は、一般化U統計量を導入することで、ランダムフォレストおよび他のリサンプリングアンサンブル学習者に対する収束速度のレートを確立し、より大きなサブサンプルサイズにおいて漸近正規性を示し、サブサンプルサイズと木の数に基づいて収束速度を定量化するベリー＝エッセーンの境界を提供する。

ABSTRACT

Random forests remain among the most popular off-the-shelf supervised learning algorithms. Despite their well-documented empirical success, however, until recently, few theoretical results were available to describe their performance and behavior. In this work we push beyond recent work on consistency and asymptotic normality by establishing rates of convergence for random forests and other supervised learning ensembles. We develop the notion of generalized U-statistics and show that within this framework, random forest predictions can potentially remain asymptotically normal for larger subsample sizes than previously established. We also provide Berry-Esseen bounds in order to quantify the rate at which this convergence occurs, making explicit the roles of the subsample size and the number of trees in determining the distribution of random forest predictions.

研究の動機と目的

一貫性と漸近正規性を越えてランダムフォレストの理論的理解を拡張すること。
ランダムフォレストの予測が正規分布にどれほど速く収束するかを定量化すること。
より大きなサブサンプルサイズにおいても漸近正規性が成立する条件を特定すること。
アンサンブル学習者に対する明示的なベリー＝エッセーンの境界を提供し、収束速度を測定すること。
サブサンプルサイズと木の数が予測分布の挙動に与える役割を形式化すること。

提案手法

リサンプリングアンサンブル学習者を分析するためのフレームワークとして一般化U統計量を導入する。
U統計量理論を用いてランダムフォレストの予測出力をモデル化する。
正規分布への収束速度を定量化するためのベリー＝エッセーンの境界を導出する。
サブサンプルサイズと木の数が収束速度に与える共同的影響を分析する。
従来の知られていた範囲よりも大きなサブサンプルサイズに対しても、漸近正規性が維持される条件を確立する。
理論的確率論的手法を用いて、予測分布が正規分布からどれほど逸脱するかをバウンディングする。

実験結果

リサーチクエスチョン

RQ1ランダムフォレストの予測分布が、より大きなサブサンプルサイズに対しても漸近正規性を保つ条件は何か？
RQ2ランダムフォレストの予測分布が正規分布にどれほど速く収束するか？
RQ3明示的な収束速度は何か？また、サブサンプルサイズと木の数はその速度にどのように影響するか？
RQ4一般化U統計量を用いてアンサンブル学習者の予測分布をモデル化し、境界を定めることは可能か？
RQ5ベリー＝エッセーンの境界は、ランダムフォレストにおける正規近似の精度をどのように定量化するか？

主な発見

ランダムフォレストの予測は、従来の結果よりも大きなサブサンプルサイズに対しても漸近正規性を保つ。
正規分布への収束速度は、ベリー＝エッセーンの境界によって定量化される。
収束速度は、サブサンプルサイズと木の数の両方に対して明示的に依存する。
一般化U統計量は、リサンプリングアンサンブル学習者を分析する理論的フレームワークを提供する。
このフレームワークにより、アンサンブル予測の分布的挙動に対するより厳密な制御が可能になる。
結果は、モデル設計の選択と漸近的分布的性質との間の相互作用を形式化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。