QUICK REVIEW

[论文解读] L1-Regularized Least Squares for Support Recovery of High Dimensional Single Index Models with Gaussian Designs.

Matey Neykov, Jun S. Liu|PubMed|May 1, 2016

Statistical Methods and Inference参考文献 43被引用 35

一句话总结

该论文表明，在高维单 index 模型（SIMs）中，当设计矩阵为高斯分布时，L1-正则化最小二乘法（LASSO）可在对链接函数和误差分布施加弱条件的情况下，近乎达到极小最大性能，最优地恢复系数向量的支撑集。当模型复杂度调整后的样本量 $ n_{p,s} = n / (s \log(p-s)) $ 足够大时，该方法可成功实现对非线性 SIMs 的支撑集恢复，而不仅限于线性模型。

ABSTRACT

It is known that for a certain class of single index models (SIMs) [Formula: see text], support recovery is impossible when X ~ 𝒩(0, 𝕀 p×p ) and a model complexity adjusted sample size is below a critical threshold. Recently, optimal algorithms based on Sliced Inverse Regression (SIR) were suggested. These algorithms work provably under the assumption that the design X comes from an i.i.d. Gaussian distribution. In the present paper we analyze algorithms based on covariance screening and least squares with L1 penalization (i.e. LASSO) and demonstrate that they can also enjoy optimal (up to a scalar) rescaled sample size in terms of support recovery, albeit under slightly different assumptions on f and ε compared to the SIR based algorithms. Furthermore, we show more generally, that LASSO succeeds in recovering the signed support of β0 if X ~ 𝒩 (0, Σ), and the covariance Σ satisfies the irrepresentable condition. Our work extends existing results on the support recovery of LASSO for the linear model, to a more general class of SIMs.

研究动机与目标

建立在高斯协变量下，LASSO 能够恢复高维单 index 模型（SIMs）中系数向量真实支撑集的条件。
将现有 LASSO 支撑集恢复理论从线性模型扩展至更广泛的 SIM 类别，涵盖未指定链接函数和误差分布的情形。
证明在高斯设计下，对于某些 SIM 类别，LASSO 在支撑集恢复方面实现了最优（至多一个标量因子）的样本量缩放。
证明当设计矩阵服从多元正态分布且协方差满足不可表示性条件时，协方差筛选与 LASSO 均能有效实现支撑集恢复。

提出的方法

作者分析了 LASSO 估计器 $ \widehat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \left\{ \frac{1}{2n} \sum_{i=1}^n (Y_i - \mathbf{X}_i^T \boldsymbol{\beta})^2 + \lambda \|\boldsymbol{\beta}\|_1 \right\} $ 在 SIMs 中的支撑集恢复性能。
他们证明，当 $ \mathbf{X} \sim \mathcal{N}(0, \boldsymbol{\Sigma}) $ 时，若 $ \boldsymbol{\Sigma} $ 满足不可表示性条件，则 LASSO 可恢复 $ \boldsymbol{\beta}_0 $ 的符号支撑集。
该分析依赖于集中不等式和高维概率工具，包括球面上的利普希茨集中性及卡方分布尾部概率界。
理论结果是在链接函数 $ f $ 和误差分布 $ \varepsilon $ 未指定但满足弱正则性条件的前提下推导得出的。
作者将 LASSO 的性能与分片逆回归（Sliced Inverse Regression, SIR）进行了比较，表明在不同 $ f $ 和 $ \varepsilon $ 假设下，LASSO 也能实现类似的最优样本量缩放。
一个关键技术步骤是通过一致界和集中性控制 $ \mathbf{X}_i^T \boldsymbol{\beta}_0 $ 与非参数估计 $ \widehat{g}(Y_i) $ 之间的经验内积。

实验结果

研究问题

RQ1在高斯设计下，LASSO 是否可用于恢复高维单 index 模型中 $ \boldsymbol{\beta}_0 $ 的支撑集？
RQ2在何种链接函数 $ f $ 和误差分布 $ \varepsilon $ 条件下，LASSO 能在 SIMs 中实现最优支撑集恢复？
RQ3在样本量需求方面，LASSO 在 SIMs 中的性能是否与基于 SIR 的方法相当？
RQ4协方差矩阵 $ \boldsymbol{\Sigma} $ 的不可表示性条件是否能确保 LASSO 在 SIMs 中实现一致的支撑集恢复？
RQ5即使模型设定错误，LASSO 是否仍能在支撑集恢复中实现近乎极小最大最优的样本量缩放？

主要发现

当模型复杂度调整后的样本量 $ n_{p,s} = n / (s \log(p-s)) $ 足够大时，LASSO 可在高维单 index 模型中实现最优支撑集恢复。
该方法在协方差矩阵 $ \boldsymbol{\Sigma} $ 满足不可表示性条件时仍有效，从而将 LASSO 的支撑集恢复能力扩展至非线性 SIMs。
对于 i.i.d. 高斯设计（$ \boldsymbol{\Sigma} = \mathbb{I}_{p \times p} $），基于 LASSO 的简单协方差筛选程序可实现类似的支撑集恢复性能。
理论保证在链接函数 $ f $ 和误差分布 $ \varepsilon $ 满足弱正则性条件时成立，即使真实模型为非线性亦成立。
基于 LASSO 的方法在一大类高斯设计的 SIMs 中，实现了近乎极小最大最优的样本量缩放（至多一个标量因子）。
分析表明，LASSO 对 SIMs 中的模型误设具有鲁棒性，即使真实关系为非线性，也能一致地恢复真实支撑集。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。

[论文解读] <i>L</i><sub>1</sub>-Regularized Least Squares for Support Recovery of High Dimensional Single Index Models with Gaussian Designs.