QUICK REVIEW

[論文レビュー] Narrowing the Gap: Random Forests In Theory and In Practice

Misha Denil, David S. Matheson|arXiv (Cornell University)|Oct 4, 2013

Gaussian Processes and Bayesian Inference参考文献 33被引用数 175

ひとこと要約

本論文は、従来の理論的モデルにおける主要な単純化を緩和することで、一貫性と実験的性能を向上させる、理論的に取り扱いやすい新しいランダム回帰フォレストの変種を提案する。本手法は新しいアルゴリズムの一貫性を証明し、広範な実験を通じて、以前の理論的変種を上回り、特に困難なコンピュータビジョンの回帰タスクにおいて、ブライマンの元々のランダムフォレストの実用的性能に非常に近い結果を達成することを示している。

ABSTRACT

Despite widespread interest and practical use, the theoretical properties of random forests are still not well understood. In this paper we contribute to this understanding in two ways. We present a new theoretically tractable variant of random regression forests and prove that our algorithm is consistent. We also provide an empirical evaluation, comparing our algorithm and other theoretically tractable random forest models to the random forest algorithm used in practice. Our experiments provide insight into the relative importance of different simplifications that theoreticians have made to obtain tractable models for analysis.

研究の動機と目的

ランダムフォレストの理論的解析と実装の間の持続的なギャップ、特に回帰設定におけるギャップを解消すること。
従来の理論的研究でなされた単純化仮定を減らしつつ、理論的取り扱いやすさを維持する新しいランダムフォレスト変種を開発すること。
実験的評価を通じて、新しいアルゴリズムが、ブライマンの広く使われている実用的アルゴリズムに近い性能を達成することを示すこと。
理論的モデルにおけるどのアルゴリズム的単純化が、実験的性能に最も顕著に影響を与えるかを解明すること。
一貫性を超える将来のランダムフォレストの理論的分析の基盤を築くこと、例えば収束速度や一般化バウンドに関するもの。

提案手法

従来の理論的モデルからの仮定を緩和するため、分割選択とリーフ予測を変更した新しいランダム回帰フォレストアルゴリズムを提案する。
ガウス分布からサンプリングされた候補分割のサブセットを用いるデータ依存の分割選択メカニズムを導入し、完全にランダムな分割よりも柔軟性を向上させる。
リーフ予測器の訓練に第二の独立したデータセットを用いる手法を導入し、理論的取り扱いやすさを保ちつつ性能を維持する。このアイデアは、ビアウ（2012）に由来する。
コンピュータビジョンの回帰タスクにおける深さ不変特徴量を生成するために、ピクセルオフセット間の深さ差を用いた特徴工学戦略を実装する。
各関節に対して個別にランダムフォレストを訓練し、ラベル付きのボディパーツデータを用いて、各ピクセルから関節までの相対的オフセットを予測する。
保持されたテストセットにおける深さ画像と真値の関節位置を用いて、平均二乗誤差（MSE）で性能を評価する。

実験結果

リサーチクエスチョン

RQ1ランダムフォレストモデルにおける理論的単純化は、一貫性を保ちつつどの程度緩和可能か？
RQ2ランダムな分割選択やリーフ予測器のための独立した訓練データといった、異なるアルゴリズム的単純化が、理論的ランダムフォレストモデルの性能にどのように影響を与えるか？
RQ3理論的に一貫性を持つランダムフォレスト変種が、ブライマンが広く使っている実用的アルゴリズムと同等の実験的性能を達成できるか？
RQ4実世界の回帰タスクにおける理論的ランダムフォレストモデルの一般化誤差に、さまざまな設計選択が及える相対的影響は何か？
RQ5より現実的である理論的モデルは、理論的保証と実用的性能の間の整合性を向上させるか？

主な発見

提案されたランダムフォレスト変種は、証明された一貫性により、データサイズが増加するにつれて最適な予測に収束することを理論的に確立した。
実験的に、評価されたすべての理論的モデルの中で、新しいアルゴリズムが最低のテスト誤差を達成し、ブライマンの元々のアルゴリズムに以前の理論的変種よりも近い性能を示した。
Kinect関節予測タスクにおいて、誤差の順序（最も高い誤差から最も低い誤差まで）は：Biau08 > Biau12 > Ours > Breiman であり、新しいモデルが以前の理論的モデルを著しく上回ることを示した。
実験結果から、完全にランダムな分割選択（Biau08の仮定）を緩和することで、性能向上が顕著に得られ、データに依存する分割選択の重要性が浮き彫りになった。
第二の独立したデータセットをリーフ予測に用いることは、複雑性を増すが、性能向上に寄与し、理論的分析を支援する。
本研究は、実用的ランダムフォレストと複数の理論的に取り扱いやすい変種との間で、初めて直接的な実験的比較を実施し、理論的単純化と実用的効果性のトレードオフに関する新たな知見を提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。