Skip to main content
QUICK REVIEW

[論文レビュー] Guided Random Forest in the RRF Package

Houtao Deng|arXiv (Cornell University)|Jun 2, 2013
Gene expression and cancer classification参考文献 6被引用数 61
ひとこと要約

本稿では、標準的ランダムフォレストからの重要度スコアを用いて木の構築をガイドする並列化可能な特徴選択手法であるガイドドランダムフォレスト(GRF)を提案する。この手法により、特徴数を著しく削減しながら分類精度を向上させることができる。10個の高次元遺伝子データセットにおいて、GRF-RF(GRFで選択された特徴に対するランダムフォレスト)は9つのデータセットで全RFを上回り、そのうち7つで有意水準0.05において統計的に有意な改善が得られた。

ABSTRACT

Random Forest (RF) is a powerful supervised learner and has been popularly used in many applications such as bioinformatics. In this work we propose the guided random forest (GRF) for feature selection. Similar to a feature selection method called guided regularized random forest (GRRF), GRF is built using the importance scores from an ordinary RF. However, the trees in GRRF are built sequentially, are highly correlated and do not allow for parallel computing, while the trees in GRF are built independently and can be implemented in parallel. Experiments on 10 high-dimensional gene data sets show that, with a fixed parameter value (without tuning the parameter), RF applied to features selected by GRF outperforms RF applied to all features on 9 data sets and 7 of them have significant differences at the 0.05 level. Therefore, both accuracy and interpretability are significantly improved. GRF selects more features than GRRF, however, leads to better classification accuracy. Note in this work the guided random forest is guided by the importance scores from an ordinary random forest, however, it can also be guided by other methods such as human insights (by specifying $λ_i$). GRF can be used in "RRF" v1.4 (and later versions), a package that also includes the regularized random forest methods.

研究の動機と目的

  • 遺伝子発現データにおける高次元特徴空間の課題に対処すること。標準的ランダムフォレストは解釈可能性と計算効率に課題を抱える。
  • 標準的ランダムフォレストからの特徴重要度スコアを活用して木の構築をガイドする特徴選択手法を開発すること。これにより、モデルの精度とスパarsity(スパarsity)が向上する。
  • ガイドド正則化ランダムフォレスト(GRRF)における木の逐次的構築の制限を克服すること。GRRFは並列化を制限し、木同士の相関を高める。
  • 特徴の関連性を維持しながら、重要度重み付きの分割基準により冗長性を低減する。このようにして、木の計算を並列化可能にする。

提案手法

  • GRFは、ノードごとにジニ重要度ゲインを、標準的ランダムフォレストからの正規化された重要度スコアで重み付けすることで変更する:$ gain_G(X_i) = \lambda_i \cdot gain(X_i) $。
  • 重み係数$ \lambda_i $は、$ \lambda_i = 1 - \gamma + \gamma \cdot \frac{Imp_i}{Imp^*} $として定義される。ここで$ \gamma \in [0,1] $は重要度スコアの影響を制御する。
  • 本研究では$ \gamma = 1 $を用いるため、$ \lambda_i = \frac{Imp_i}{Imp^*} $となり、低重要度特徴に対してより強くペナルティが課される。
  • GRFの木は独立して構築されるため、完全な並列化が可能である。これに対してGRRFは木を逐次的に構築するため、相関が高くなりがちである。
  • 特徴選択は、GRFアンサンブル全体で最も頻繁に使用された特徴を特定することで実施する。
  • 最終モデルは、GRFで選択された特徴のサブセットに対して標準的ランダムフォレストを適用する。このモデルをGRF-RFと呼ぶ。

実験結果

リサーチクエスチョン

  • RQ1ランダムフォレストの重要度スコアに基づく特徴選択手法は、特徴次元を低減しつつ分類精度を向上させることができるか?
  • RQ2GRFのような並列化可能な特徴選択アプローチは、GRRFのような逐次的手法に比べ、精度と計算効率において優れているか?
  • RQ3GRF-RF(GRFで選択された特徴に対するランダムフォレスト)は、高次元遺伝子発現データに対して標準的ランダムフォレストよりも精度が高いか?
  • RQ4正規化された重要度スコアをペナルティ項として用いることで、特徴選択とモデル性能にどのような影響を与えるか?

主な発見

  • GRF-RFは10個の高次元遺伝子データセットのうち9つで標準的ランダムフォレストを上回り、そのうち7つで有意水準0.05において統計的に有意な改善が得られた。
  • 平均して、GRFはシミュレートされたデータセットで500個の特徴のうちたった196個を選択したが、標準的RFは全500個を使用した。GRF-RFは全RFと比較して誤分類数が54から34に減少した。
  • GRFは全データセットでGRRFより少ない特徴数を使用し、GRF-RFは全10個のデータセットで誤差率がGRRFおよびGRRF-RFを常に下回った。
  • GRF-RFはGRF自体よりも低い誤差率を達成しており、GRFで選択された特徴に対して標準的ランダムフォレストを適用することで、GRF単体の分類器よりも優れた性能が得られることを示している。
  • GRFが選択する特徴数は標準的RFに比べて顕著に少ない。ほとんどのデータセットで中央値の特徴使用数が半分以下にまで低下し、モデルの解釈可能性が向上した。
  • パrameter選択に対して頑健である。$ \gamma = 1 $(低重要度特徴に対する最大ペナルティ)を用いた場合、チューニングなしで良好な結果が得られた。これは、実世界の応用において実用的であることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。