QUICK REVIEW

[論文レビュー] Canonical Correlation Forests

Tom Rainforth, Frank Wood|arXiv (Cornell University)|Jul 20, 2015

Neural Networks and Applications参考文献 46被引用数 40

ひとこと要約

この論文は、局所的な線形相関分析に基づく超平面分割を用いる、新しい意思決定木アンサンブル手法である正規化相関フォレスト（CCFs）を紹介する。CCFsは軸に沿った分割に比べ、相関する入力特徴量をより効果的にモデル化できる。CCFsは、パラメータチューニングなしで最近のベンチマークにおいて179種類の分類器すべてを上回る予測精度と高速な学習を達成し、ランダムフォレストや最先端の木アンサンブル手法を凌駆する。

ABSTRACT

We introduce canonical correlation forests (CCFs), a new decision tree ensemble method for classification and regression. Individual canonical correlation trees are binary decision trees with hyperplane splits based on local canonical correlation coefficients calculated during training. Unlike axis-aligned alternatives, the decision surfaces of CCFs are not restricted to the coordinate system of the inputs features and therefore more naturally represent data with correlated inputs. CCFs naturally accommodate multiple outputs, provide a similar computational complexity to random forests, and inherit their impressive robustness to the choice of input parameters. As part of the CCF training algorithm, we also introduce projection bootstrapping, a novel alternative to bagging for oblique decision tree ensembles which maintains use of the full dataset in selecting split points, often leading to improvements in predictive accuracy. Our experiments show that, even without parameter tuning, CCFs out-perform axis-aligned random forests and other state-of-the-art tree ensemble methods on both classification and regression problems, delivering both improved predictive accuracy and faster training times. We further show that they outperform all of the 179 classifiers considered in a recent extensive survey.

研究の動機と目的

軸に沿った意思決定木の限界、特に特徴量の相関性がモデル性能や回転に対する感受性を低下させることを是正する。
従来の木アンサンブルにおける個々の木の精度とアンサンブルの多様性のトレードオフを、より情報量が多くデータ駆動的な分割を用いることで克服する。
特徴量の相関を自然に組み込み、複数出力に対応できるスケーラブルで頑健かつパラメータに強いアンサンブル手法を開発する。
分割選択時に全データセットを維持するバギングの代替として、プロジェクションブートストラップを導入し、予測精度を向上させる。
CCFsが多様な分類および回帰タスクにおいて、ハイパーパrameterチューニングなしで既存手法を凌駆することを実証する。

提案手法

各意思決定ノードで正規化相関分析（CCA）を用い、入力特徴量の相関性と出力予測を同時に最適化する超平面分割を計算する。
局所的CCAから導出された傾斜付き超平面分割を用いて個々の木を構築し、入力特徴量の座標系に縛られない意思決定境界を実現する。
全データセットを分割選択に活用する新しいサンプリング戦略であるプロジェクションブートストラップを実装し、データの部分抽出を回避することで分割品質を向上させる。
標準のランダムフォレストフレームワークを変更して、このような木のアンサンブルを学習し、標準のランダムフォレストと同等の計算複雑度を維持する。
各ノードで多次元応答変数を扱えるようにCCAを拡張することで、複数出力予測をネイティブにサポートする。
トレーニングと推論のための単一の行インターフェースを提供し、最小限のユーザーの専門知識でブラックボックスとしてのデプロイが可能になる。

実験結果

リサーチクエスチョン

RQ1正規化相関分析に基づく超平面分割は、軸に沿った分割に比べ、意思決定木アンサンブルの予測精度を向上させることができるか？
RQ2プロジェクションブートストラップは、傾斜付き木アンサンブルにおいて、従来のバギングに比べてより良いモデル性能をもたらすか？
RQ3CCFsは、軸に沿った木手法と比較して、入力特徴量の回転や相関性に対してどれほど感受性が低くなるか？
RQ4CCFsはハイパーパrameterチューニングなしで最先端の性能を達成でき、最近のベンチマークで179種類の分類器すべてを上回るか？
RQ5CCFsの計算複雑度と学習速度は、標準のランダムフォレストや他の木アンサンブル手法と比較してどうなるか？

主な発見

CCFsは、パラメータチューニングなしで分類および回帰タスクにおいて、軸に沿ったランダムフォレストや他の最先端の木アンサンブル手法を上回る高い予測精度を達成する。
179種類の分類器を含む包括的なベンチマークにおいて、CCFsは、チューニング済みの競合手法を含め、すべての他の手法を上回った。
CCAに基づく分割により、ノードあたりの候補分割数が減少するため、CCFsはランダムフォレストよりも高速な学習時間を達成する。
プロジェクションブートストラップの導入により、分割選択時に全データセットを活用することで、分散が低減され一般化性能が向上する。
CCFsは、入力特徴量の回転や相関性に対して頑健である。なぜなら、固定された軸に縛られないで局所的なデータ構造に適応する超平面分割を採用しているからである。
CCFsは、標準のランダムフォレストと同等またはより良い性能を、より少ない木の数で達成する。これは、より高いサンプル効率と低い計算コストを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。