QUICK REVIEW

[論文レビュー] The All Relevant Feature Selection using Random Forest

Miron B. Kursa, Witold R. Rudnicki|arXiv (Cornell University)|Jun 25, 2011

Gene expression and cancer classification参考文献 19被引用数 45

ひとこと要約

本論文では、すべての関連特徴（強く関連する特徴およびやや関連する特徴）を特定するためのランダムフォレストベースのラッピング手法、Borutaを提案する。この手法は、特徴の重要度順序をランダムに並べ替えた際の有意性テストに基づくヒューリスティックを用い、真の関連特徴とノイズを区別する。合成データおよび実世界のデータ（遺伝子発現データセットを含む）において、理想的な性能に非常に近い結果を達成した。

ABSTRACT

In this paper we examine the application of the random forest classifier for the all relevant feature selection problem. To this end we first examine two recently proposed all relevant feature selection algorithms, both being a random forest wrappers, on a series of synthetic data sets with varying size. We show that reasonable accuracy of predictions can be achieved and that heuristic algorithms that were designed to handle the all relevant problem, have performance that is close to that of the reference ideal algorithm. Then, we apply one of the algorithms to four families of semi-synthetic data sets to assess how the properties of particular data set influence results of feature selection. Finally we test the procedure using a well-known gene expression data set. The relevance of nearly all previously established important genes was confirmed, moreover the relevance of several new ones is discovered.

研究の動機と目的

高次元データセットにおいて、すべての関連特徴（強く関連する特徴およびやや関連する特徴）を特定できる、頑健でラッピングベースの特徴選択手法の開発。
ランダムフォレストベースの特徴重要度の評価が、強い特徴に隠れており、弱く関連する属性を検出できるかの評価。
さまざまなデータタイプにおいて、真の関連特徴と誤検出された特徴を区別するBorutaのヒューリスティックの感受性と信頼性の評価。
特に遺伝子発現データセットを含む実世界の生物学的データに対して、本手法の妥当性を検証し、これまでに同定されていなかった生物学的に意味のある特徴を発見すること。

提案手法

Borutaアルゴリズムは、特徴値をランダムに並べ替えた際の正答率の平均低下に基づいて、ランダムフォレスト分類器を用いて特徴の重要度を計算する。
オリジナルの特徴重要度と、オリジナル特徴のランダムに並べ替えられたコピー（シャロウ特徴）の重要度を比較することで、有意性テストを導入する。
複数回の反復において、シャロウ特徴の最大重要度を超える重要度を持つ特徴は「重要」と分類される。
重要度推定の安定化と分散の低減を目的として、木の数を段階的に増加させながら複数回のランダムフォレスト学習を実行する。
一貫してシャロウ特徴を上回る重要度を示す特徴を特定するためのヒューリスティックなしきい値処理手順を適用する。
本手法は分類器に依存しないように設計されているが、弱く関連する特徴に敏感であるという点で、ランダムフォレストと特に相性が良い。

実験結果

リサーチクエスチョン

RQ1ランダムフォレストベースのラッピング手法は、高次元データにおいて、弱く関連する特徴を含め、すべての関連特徴を効果的に同定できるか？
RQ2合成データセットにおいて、Borutaのヒューリスティックは理想的な基準アルゴリズムと比較して、特徴選択の正確性においてどの程度の性能を示すか？
RQ3次元数、関連特徴の数、ノイズレベルといったデータセットの特性が、Borutaアルゴリズムの性能に与える影響は何か？
RQ4実際の遺伝子発現データにおいて、Borutaは既知の生物学的に関連する遺伝子をどの程度回復できるか。また、新たな遺伝子を同定できるか？
RQ5ランダムフォレストアンサンブルにおける木の数は、Borutaにおける特徴選択の感受性と安定性にどのように影響するか？

主な発見

合成データセットにおいて、Borutaのヒューリスティックは理想的な基準アルゴリズムに非常に近い性能を示し、すべての関連特徴を高精度に同定した。
本手法は、複雑なデータ構造において強い特徴に隠れていたとしても、すべての強く関連する特徴と大部分のやや関連する特徴を効果的に検出できた。
半合成のGolub遺伝子発現データセットでは、オリジナルデータとほぼ同一の結果が得られ、データの複雑さが増すにつれて検出された重要特徴の数がわずかに減少したにとどまった。
実際のGolubデータセットでは、既に確立済みのすべての重要な遺伝子の関連性が確認され、かつ、以前の手法では同定されていなかった150以上もの新たな潜在的関連遺伝子が発見された。
実際の生物学的データにおいて、Borutaの誤検出に対する感受性は低く、顕著な誤検出は観察されなかった。これは、生物学的に意味のある文脈において、本手法の頑健性を示している。
ランダムフォレストアンサンブルにおける木の数は、特にやや関連する特徴の検出感受性に顕著な影響を及ぼし、重要度推定の安定化には大きなアンサンブルが必要であることがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。