Skip to main content
QUICK REVIEW

[論文レビュー] Variable importance and model selection by decorrelation

Verena Zuber, Korbinian Strimmer|arXiv (Cornell University)|Jul 30, 2010
Gene expression and cancer classification参考文献 26被引用数 11
ひとこと要約

本稿では、マハラノビス分散除去を用いて予測変数を順序付けする新しい変数重要度基準であるCARスコアを導入する。この手法は、相関する変数をグループ化し、敵対的(拮抗的)な変数による干渉を低減することで、変数選択において最新の手法(リッジ回帰やブースティングなど)を凌駕する。シミュレーションおよび実際のゲノムデータにおいて、予測精度が高く、真陽性・偽陽性率が最適であることが示された。

ABSTRACT

Variable selection is a difficult problem that is particularly challenging in the analysis of high-dimensional genomic data. Here, we introduce the CAR score, a novel and highly effective criterion for variable ranking in linear regression based on Mahalanobis-decorrelation of the explanatory variables. The CAR score provides a canonical ordering that encourages grouping of correlated predictors and down-weights antagonistic variables. It decomposes the proportion of variance explained and it is an intermediate between marginal correlation and the standardized regression coefficient. As a population quantity, any preferred inference scheme can be applied for its estimation. Using simulations we demonstrate that variable selection by CAR scores is very effective and yields prediction errors and true and false positive rates that compare favorably with modern regression techniques such as elastic net and boosting. We illustrate our approach by analyzing data concerned with diabetes progression and with the effect of aging on gene expression in the human brain. The R package care implementing CAR score regression is available from CRAN.

研究の動機と目的

  • 予測変数が相関していることが一般的な高次元ゲノムデータにおける変数選択の課題に対処すること。
  • 相関および敵対的(拮抗的)な予測変数による干渉を低減することで、変数順序付けの改善を図ること。
  • 任意の所望の推論手法を用いて推定可能な、母集団レベルの変数重要度測度を提供すること。
  • CARスコアに基づく変数選択が、リッジ回帰やブースティングなどの最先端手法よりも、予測誤差および真陽性・偽陽性率が優れていることを示すこと。
  • 糖尿病の進行や脳の老化に関連する遺伝子発現データを含む、実世界の生物学的データセットにおいて、本手法の有効性を提示すること。

提案手法

  • 説明変数のマハラノビス分散除去に基づく変数重要度測度としてCARスコアを提案する。
  • マハラノビス変換を用いて予測変数を分散除去し、相関する変数をグループ化する標準化順序を実現する。
  • CARスコアを、片側相関と標準化回帰係数の中間的性質として定義し、片側および同時効果を両方捉える。
  • 分散除去フレームワークを用いて、各予測変数が説明する分散の割合を分解し、個々の寄与度を評価する。
  • 任意の一貫性のある推論手順を用いて、標本データからCARスコアを推定可能であり、さまざまなデータタイプに柔軟に適応可能である。
  • 高次元回帰への実用的応用を可能にするために、Rパッケージ「care」をCRANにリリースした。

実験結果

リサーチクエスチョン

  • RQ1予測変数が高次元線形回帰で強く相関している場合、どのようにして変数重要度を改善できるか?
  • RQ2分散除去に基づく基準は、変数選択における敵対的(拮抗的)変数の悪影響を軽減できるか?
  • RQ3CARスコアは、片側相関や標準化回帰係数と比較して、より正確かつ安定した予測変数順序付けを提供するか?
  • RQ4CARスコアに基づく変数選択は、リッジ回帰やブースティングなどの最新技術と比較して、予測誤差および選択精度の面で優れているか?
  • RQ5CARスコアは、糖尿病や脳の老化を含む複雑な生物学的データセットにおいて、関連する遺伝子を効果的に同定できるか?

主な発見

  • CARスコアは、マハラノビス変換による分散除去によって、相関する予測変数を効果的にグループ化し、変数順序付けにおける干渉を低減する。
  • シミュレーションでは、CARスコアに基づく選択が、リッジ回帰やブースティングと比較して、より低い予測誤差およびより優れた真陽性・偽陽性率を達成した。
  • CARスコアは、片側相関と標準化回帰係数の中間的性質として自然な橋渡しを果たし、変数重要度のよりバランスの取れた測度を提供する。
  • 実世界のデータにおいても優れた性能を示し、糖尿病の進行および脳の老化関連遺伝子発現研究において、生物学的に意味のある予測変数を的確に同定した。
  • Rパッケージ「care」により、CARスコア回帰の実用的実装が可能となり、高次元ゲノムデータの再現性がありスケーラブルな解析を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。