QUICK REVIEW

[論文レビュー] L1-Regularized Least Squares for Support Recovery of High Dimensional Single Index Models with Gaussian Designs.

Matey Neykov, Jun S. Liu|PubMed|May 1, 2016

Statistical Methods and Inference参考文献 43被引用数 35

ひとこと要約

本稿は、正規設計を伴う高次元単一インデックスモデル（SIMs）において、L1正則化最小二乗法（LASSO）が、リンク関数および誤差分布にやや厳しい条件を課すことで、係数ベクトルのサポートを最適に回復できることを示している。モデルの複雑さに応じたサンプルサイズ $ n_{p,s} = n / (s \log(p-s)) $ が十分に大きい場合、線形モデルを超える非線形SIMsに対してもLASSOのサポート回復が成立する。

ABSTRACT

It is known that for a certain class of single index models (SIMs) [Formula: see text], support recovery is impossible when X ~ 𝒩(0, 𝕀 p×p ) and a model complexity adjusted sample size is below a critical threshold. Recently, optimal algorithms based on Sliced Inverse Regression (SIR) were suggested. These algorithms work provably under the assumption that the design X comes from an i.i.d. Gaussian distribution. In the present paper we analyze algorithms based on covariance screening and least squares with L1 penalization (i.e. LASSO) and demonstrate that they can also enjoy optimal (up to a scalar) rescaled sample size in terms of support recovery, albeit under slightly different assumptions on f and ε compared to the SIR based algorithms. Furthermore, we show more generally, that LASSO succeeds in recovering the signed support of β0 if X ~ 𝒩 (0, Σ), and the covariance Σ satisfies the irrepresentable condition. Our work extends existing results on the support recovery of LASSO for the linear model, to a more general class of SIMs.

研究の動機と目的

高次元単一インデックスモデル（SIMs）において、正規共変数を伴う場合にLASSOが係数ベクトルの真のサポートを回復できる条件を確立すること。
従来の線形モデルに限らないLASSOのサポート回復理論を、リンク関数および誤差分布が指定されていない広いクラスのSIMsへと拡張すること。
正規設計のもとで、特定のSIMクラスにおいてLASSOが、スカラー要因を除いて最小上限に近い性能を達成できることを示すこと。
設計行列が多変量正規分布に従い、かつ不表現性条件を満たす共分散行列を有する場合、共分散スクリーニングとLASSOがサポート回復に有効であることを示すこと。

提案手法

著者たちは、単一インデックスモデルにおけるサポート回復のためのLASSO推定量 $ \widehat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \left\{ \frac{1}{2n} \sum_{i=1}^n (Y_i - \mathbf{X}_i^T \boldsymbol{\beta})^2 + \lambda \|\boldsymbol{\beta}\|_1 \right\} $ を分析する。
$ \mathbf{X} \sim \mathcal{N}(0, \boldsymbol{\Sigma}) $ かつ $ \boldsymbol{\Sigma} $ が不表現性条件を満たす限り、LASSOは $ \boldsymbol{\beta}_0 $ の符号付きサポートを回復することが示された。
解析は、リプシッツ濃度不等式および高次元確率の道具（球面上のリプシッツ濃度およびカイ二乗分布の尾部バウンド）に依存している。
リンク関数 $ f $ および誤差分布 $ \varepsilon $ が指定されていないが、やや厳しい正則性条件を満たすと仮定して理論的結果を導出している。
著者たちは、LASSOの性能をスライス逆回帰（Sliced Inverse Regression, SIR）と比較し、$ f $ および $ \varepsilon $ に異なる仮定を置いた場合でも、LASSOが同様に最適なサンプルサイズスケーリングを達成することを示した。
重要な技術的ステップとして、 $ \mathbf{X}_i^T \boldsymbol{\beta}_0 $ と非パラメトリック推定値 $ \widehat{g}(Y_i) $ 間の経験的内積を、一様バウンドおよび濃度不等式を用いて制御している。

実験結果

リサーチクエスチョン

RQ1正規設計を伴う高次元単一インデックスモデルにおいて、LASSOを用いて $ \boldsymbol{\beta}_0 $ のサポートを回復できるか？
RQ2リンク関数 $ f $ および誤差分布 $ \varepsilon $ にどのような条件下で、LASSOはSIMsにおいて最適なサポート回復を達成するか？
RQ3LASSOの性能は、サンプルサイズ要件の観点からSIRベースの手法と同等か？
RQ4共分散行列 $ \boldsymbol{\Sigma} $ に不表現性条件が成立する場合、LASSOはSIMsにおいて一貫したサポート回復を達成できるか？
RQ5モデルが誤り指定されている場合でも、LASSOはSIMsのサポート回復において、スカラー要因を除いて最小上限に近いサンプルサイズスケーリングを達成できるか？

主な発見

LASSOは、モデルの複雑さに応じたサンプルサイズ $ n_{p,s} = n / (s \log(p-s)) $ が十分に大きい場合、高次元単一インデックスモデルにおいて最適なサポート回復を達成する。
不表現性条件を満たす共分散行列 $ \boldsymbol{\Sigma} $ が成立する限り、LASSOは非線形SIMsに対してもサポート回復が可能である。
i.i.d. 正規設計（ $ \boldsymbol{\Sigma} = \mathbb{I}_{p \times p} $ ）の下では、LASSOに基づく単純な共分散スクリーニング手順が、同様のサポート回復性能を達成する。
リンク関数 $ f $ および誤差分布 $ \varepsilon $ にやや厳しい正則性条件を課すことで、理論的保証が得られ、真のモデルが非線形であっても成立する。
LASSOベースのアプローチは、広い範囲の正規設計を伴うSIMsにおいて、スカラー要因を除いて最小上限に近いサンプルサイズスケーリングを達成する。
解析により、LASSOはSIMsにおけるモデル誤り指定に対してもロバストであることが示された。非線形な真の関係であっても、一貫して真のサポートを回復する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。

[論文レビュー] <i>L</i><sub>1</sub>-Regularized Least Squares for Support Recovery of High Dimensional Single Index Models with Gaussian Designs.