Skip to main content
QUICK REVIEW

[论文解读] <i>L</i><sub>1</sub>-Regularized Least Squares for Support Recovery of High Dimensional Single Index Models with Gaussian Designs.

Matey Neykov, Jun S. Liu|PubMed|May 1, 2016
Statistical Methods and Inference参考文献 43被引用 35
一句话总结

该论文表明,在高维单 index 模型(SIMs)中,当设计矩阵为高斯分布时,L1-正则化最小二乘法(LASSO)可在对链接函数和误差分布施加弱条件的情况下,近乎达到极小最大性能,最优地恢复系数向量的支撑集。当模型复杂度调整后的样本量 $ n_{p,s} = n / (s \log(p-s)) $ 足够大时,该方法可成功实现对非线性 SIMs 的支撑集恢复,而不仅限于线性模型。

ABSTRACT

It is known that for a certain class of single index models (SIMs) [Formula: see text], support recovery is impossible when <b><i>X</i></b> ~ 𝒩(0, 𝕀 <i><sub>p</sub></i><sub>×</sub><i><sub>p</sub></i> ) and a <i>model complexity adjusted sample size</i> is below a critical threshold. Recently, optimal algorithms based on Sliced Inverse Regression (SIR) were suggested. These algorithms work provably under the assumption that the design <b><i>X</i></b> comes from an i.i.d. Gaussian distribution. In the present paper we analyze algorithms based on covariance screening and least squares with <i>L</i><sub>1</sub> penalization (i.e. LASSO) and demonstrate that they can also enjoy optimal (up to a scalar) rescaled sample size in terms of support recovery, albeit under slightly different assumptions on <i>f</i> and <i>ε</i> compared to the SIR based algorithms. Furthermore, we show more generally, that LASSO succeeds in recovering the signed support of <b><i>β</i></b><sub>0</sub> if <b><i>X</i></b> ~ 𝒩 (0, <b>Σ</b>), and the covariance <b>Σ</b> satisfies the irrepresentable condition. Our work extends existing results on the support recovery of LASSO for the linear model, to a more general class of SIMs.

研究动机与目标

  • 建立在高斯协变量下,LASSO 能够恢复高维单 index 模型(SIMs)中系数向量真实支撑集的条件。
  • 将现有 LASSO 支撑集恢复理论从线性模型扩展至更广泛的 SIM 类别,涵盖未指定链接函数和误差分布的情形。
  • 证明在高斯设计下,对于某些 SIM 类别,LASSO 在支撑集恢复方面实现了最优(至多一个标量因子)的样本量缩放。
  • 证明当设计矩阵服从多元正态分布且协方差满足不可表示性条件时,协方差筛选与 LASSO 均能有效实现支撑集恢复。

提出的方法

  • 作者分析了 LASSO 估计器 $ \widehat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \left\{ \frac{1}{2n} \sum_{i=1}^n (Y_i - \mathbf{X}_i^T \boldsymbol{\beta})^2 + \lambda \|\boldsymbol{\beta}\|_1 \right\} $ 在 SIMs 中的支撑集恢复性能。
  • 他们证明,当 $ \mathbf{X} \sim \mathcal{N}(0, \boldsymbol{\Sigma}) $ 时,若 $ \boldsymbol{\Sigma} $ 满足不可表示性条件,则 LASSO 可恢复 $ \boldsymbol{\beta}_0 $ 的符号支撑集。
  • 该分析依赖于集中不等式和高维概率工具,包括球面上的利普希茨集中性及卡方分布尾部概率界。
  • 理论结果是在链接函数 $ f $ 和误差分布 $ \varepsilon $ 未指定但满足弱正则性条件的前提下推导得出的。
  • 作者将 LASSO 的性能与分片逆回归(Sliced Inverse Regression, SIR)进行了比较,表明在不同 $ f $ 和 $ \varepsilon $ 假设下,LASSO 也能实现类似的最优样本量缩放。
  • 一个关键技术步骤是通过一致界和集中性控制 $ \mathbf{X}_i^T \boldsymbol{\beta}_0 $ 与非参数估计 $ \widehat{g}(Y_i) $ 之间的经验内积。

实验结果

研究问题

  • RQ1在高斯设计下,LASSO 是否可用于恢复高维单 index 模型中 $ \boldsymbol{\beta}_0 $ 的支撑集?
  • RQ2在何种链接函数 $ f $ 和误差分布 $ \varepsilon $ 条件下,LASSO 能在 SIMs 中实现最优支撑集恢复?
  • RQ3在样本量需求方面,LASSO 在 SIMs 中的性能是否与基于 SIR 的方法相当?
  • RQ4协方差矩阵 $ \boldsymbol{\Sigma} $ 的不可表示性条件是否能确保 LASSO 在 SIMs 中实现一致的支撑集恢复?
  • RQ5即使模型设定错误,LASSO 是否仍能在支撑集恢复中实现近乎极小最大最优的样本量缩放?

主要发现

  • 当模型复杂度调整后的样本量 $ n_{p,s} = n / (s \log(p-s)) $ 足够大时,LASSO 可在高维单 index 模型中实现最优支撑集恢复。
  • 该方法在协方差矩阵 $ \boldsymbol{\Sigma} $ 满足不可表示性条件时仍有效,从而将 LASSO 的支撑集恢复能力扩展至非线性 SIMs。
  • 对于 i.i.d. 高斯设计($ \boldsymbol{\Sigma} = \mathbb{I}_{p \times p} $),基于 LASSO 的简单协方差筛选程序可实现类似的支撑集恢复性能。
  • 理论保证在链接函数 $ f $ 和误差分布 $ \varepsilon $ 满足弱正则性条件时成立,即使真实模型为非线性亦成立。
  • 基于 LASSO 的方法在一大类高斯设计的 SIMs 中,实现了近乎极小最大最优的样本量缩放(至多一个标量因子)。
  • 分析表明,LASSO 对 SIMs 中的模型误设具有鲁棒性,即使真实关系为非线性,也能一致地恢复真实支撑集。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。