[論文レビュー] Variable selection from random forests: application to gene expression data
本稿では、ランダムフォレストを用いた、遺伝子発現データに対するロバストな変数選択手法を提案する。変数の重要度指標とバックワードエリミネーションを組み合わせることで、小規模で安定的かつ予測可能な遺伝子セットを同定する。この手法は、多重共線性や不安定性の問題を克服しつつ、高い分類精度を維持する。Rパッケージ(varSelRF)を公開しており、再現性のある研究が可能となる。
Random forest is a classification algorithm well suited for microarray data: it shows excellent performance even when most predictive variables are noise, can be used when the number of variables is much larger than the number of observations, and returns measures of variable importance. Thus, it is important to understand the performance of random forest with microarray data and its use for gene selection. We first show the effects of changes in parameters of random forest on the prediction error. Then we present an approach for gene selection that uses measures of variable importance and error rate, and is targeted towards the selection of small sets of genes. Using simulated and real microarray data, we show that the gene selection procedure yields small sets of genes while preserving predictive accuracy. Availability: All code is available as an R package, varSelRF, from CRAN, http://cran.r-project.org/src/contrib/PACKAGES.html, or from the supplementary material page. Supplementary information: http://ligarto.org/rdiaz/Papers/rfVS/randomForestVarSel.html
研究の動機と目的
- マイクロアレイデータにおける予測誤差に及ぼすランダムフォレストのパラメータ(mtry, ntree, nodesize)の影響を評価すること。
- 高い予測精度を維持しつつ、小規模で重複のない遺伝子セットを同定する遺伝子選択手法を開発すること。
- 同じ予測性能を示すにもかかわらず、異なる実行で異なる遺伝子リストが得られるという、遺伝子選択の不安定性と多重性の問題に対処すること。
- 生物学的に解釈可能な遺伝子選択を実現する実用的で再現性のあるフレームワークを提供すること。
- 遺伝子編集研究分野への広範な適用を促進するため、Rパッケージ(varSelRF)を通じてこの手法を一般に公開すること。
提案手法
- 元のデータとランダムに並べ替えたデータにランダムフォレストを訓練し、変数の重要度プロットを用いてアウトカムと顕著に関連する遺伝子を同定する。
- 重要度スコアに基づいて最も重要でない遺伝子を段階的に削除するバックワード変数エリミネーションアルゴリズムを採用し、誤差率のモニタリングによって制御する。
- 1回の反復で削除する変数の割合を調整することで、遺伝子セットサイズ選択の解像度を制御する。
- ブートストラップサンプル間での変数重要度推定の一貫性を向上させるために、安定性パラメータ(se)を導入する。
- 大規模なマイクロアレイデータ処理のための計算効率を向上させるために、RmpiおよびSnowパッケージを用いた並列計算を実装する。
- 性能と安定性を評価するために、シミュレーテッドデータと9つの実際のマイクロアレイデータセットを用いて結果を検証する。
実験結果
リサーチクエスチョン
- RQ1ランダムフォレストのパラメータ(mtry, ntree, nodesize)の変更が、マイクロアレイデータにおける予測誤差にどのように影響するか?
- RQ2共線性が存在する状況下でも、ランダムフォレストの変数重要度プロットは、真の生物学的に関連する遺伝子のセットを信頼性を持って回復できるか?
- RQ3ランダムフォレストの重要度指標を用いたバックワード変数エリミネーションは、最先端の手法と比較して、小規模で正確かつ安定した遺伝子セットを生成できるか?
- RQ4複数回の実行において、選択された遺伝子セットの安定性はどの程度で、他の遺伝子選択手法と比べてどうか?
- RQ5高次元の遺伝子発現データにおいて、予測精度と生物学的解釈可能性の両立を、この手法はどの程度達成できるか?
主な発見
- ランダムフォレストのmtryのデフォルト値は一般的に良好な性能を示し、ntreeを2000を超えて増加させても、誤差率や安定性に顕著な改善は得られない。
- ランダムフォレストの重要度を用いたバックワードエリミネーションは、いくつかの最先端のアルゴリズムと同等またはそれ以上の高い予測精度を達成しつつ、極めて小規模な遺伝子セットを同定できる。
- 変数の重要度プロットは、予測変数が非常に相関している場合でも、関連する遺伝子を効果的に同定でき、多重共線性に対して強い。
- シミュレーテッドデータにおいて、真の予測に寄与する遺伝子の全セットを効果的に回復できたことから、感度と特異度の両面で妥当性が確認された。
- 遺伝子選択に内在する不安定性(多重性問題)は避けられないが、本手法は複数回の実行と安定性のチェックを組み合わせることで、改善された安定性と一貫性を示した。
- RパッケージvarSelRFにより、再現性がありスケーラブルな実装が可能となり、並列処理によって大規模データセットにおける計算時間を顕著に短縮した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。