QUICK REVIEW

[論文レビュー] A semi-automatic method to guide the choice of ridge parameter in ridge regression

Erika Cule, Maria De Iorio|arXiv (Cornell University)|May 3, 2012

Soil Geostatistics and Mapping参考文献 42被引用数 34

ひとこと要約

本稿では、主成分からの有効自由度を用いて予測値の分散を制御することで、リッジ回帰におけるリッジパラメータの半自動的選択手法を提案する。この手法は、観察数より予測変数が多い高次元の遺伝学的データにおいて、単変量選択およびHyperLassoと比較して予測精度を向上させ、シミュレーションおよび双極性障害のケースコントロール研究でその有効性が示された。

ABSTRACT

We consider the application of a popular penalised regression method, Ridge Regression, to data with very high dimensions and many more covariates than observations. Our motivation is the problem of out-of-sample prediction and the setting is high-density genotype data from a genome-wide association or resequencing study. Ridge regression has previously been shown to offer improved performance for prediction when compared with other penalised regression methods. One problem with ridge regression is the choice of an appropriate parameter for controlling the amount of shrinkage of the coefficient estimates. Here we propose a method for choosing the ridge parameter based on controlling the variance of the predicted observations in the model. Using simulated data, we demonstrate that our method outperforms subset selection based on univariate tests of association and another penalised regression method, HyperLasso regression, in terms of improved prediction error. We extend our approach to regression problems when the outcomes are binary (representing cases and controls, as is typically the setting for genome-wide association studies) and demonstrate the method on a real data example consisting of case-control and genotype data on Bipolar Disorder, taken from the Wellcome Trust Case Control Consortium and the Genetic Association Information Network.

研究の動機と目的

観察数が予測変数数を上回る高次元回帰における最適なリッジパラメータ選択の課題に対処すること。
特にリグレッションに高い連鎖不平衡と多数の相関するSNPを含む全ゲノム関連解析における、アウトオブサンプル予測性能の向上。
高次元性および多重共線性に強く、計算的にも効率的な手法の開発。
疾患予測における二値アウトカム（例：ケースコントロール状態）への拡張と、実際の遺伝学的データにおける妥当性の検証。

提案手法

本手法は、設計行列の主成分分解を用いて、有効自由度を介して予測値の分散を制御することでリッジパラメータを選択する。
行列のトレース $ \text{tr}(\mathbf{H}\mathbf{H}^\prime) = r $ を満たすリッジパラメータ $ k_r $ を計算する。ここで $ r $ は使用する主成分数である。
主成分数 $ r $ は、リッジ推定値とそのp値の安定性を高めるために選ばれ、リッジトレースにおける係数パスとp値の安定化が見られる点として特定される。
交差検証、単変量選択、HyperLassoと比較するため、平均二乗予測誤差および分類誤差を指標として用いる。
二値アウトカムの場合は、同一の $ k_r $ パrameterを用いてロジスティックリッジ回帰を適用し、平均分類誤差によって性能を評価する。
リッジ圧縮と自由度の関係を活用することで、$ r $ が適切に選ばれた場合、OLS推定値に近い推定値が保たれる。

実験結果

リサーチクエスチョン

RQ1観察数が予測変数数を上回る高次元遺伝学的データにおける、リッジパラメータ選択の半自動的手法が、予測精度を向上させることができるか。
RQ2有効自由度による予測値の分散制御は、交差検証や単変量スクリーニングと比較して、予測誤差の観点でどのように優れているか。
RQ3異なる主成分数に対して、本手法が安定した係数推定値とp値を維持できるか。
RQ4本手法は、ケースコントロール研究における疾患状態などの二値アウトカムに効果的に拡張可能か。
RQ5実際の遺伝学的データ（例：双極性障害の遺伝子型）において、本手法はHyperLassoおよび単変量選択と比較して、どのように性能を発揮するか。

主な発見

連続アウトカムのシミュレーションでは、本手法は平均予測二乗誤差（PSE）1.23を達成し、単変量選択（1.51）およびHyperLasso（1.55）を有意に下回った。
二値アウトカムでは、WTCCC-BDデータ上で平均分類誤差0.465を達成し、単変量選択（0.489）およびHyperLasso（0.491）を上回った。
リッジトレースにおいて、最適な $ r $ が係数パスとp値曲線が平坦化する点として特定され、推定値とp値が安定したことが示された。
すべてのシミュレーション設定において、交差検証および単変量選択よりも予測誤差が低く抑えられ、特に相関する予測変数を含む高次元設定で顕著であった。
実際の双極性障害データセットでは、平均分類誤差0.465を達成し、実世界の遺伝学的予測文脈において、強固で臨床的意義のある性能を示した。
リッジパラメータ選択に分散に基づくアプローチを用いることで、交差検証や単変量スクリーニングに依存する手法よりも、より安定的かつ正確な予測が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。