QUICK REVIEW

[논문 리뷰] L1-Regularized Least Squares for Support Recovery of High Dimensional Single Index Models with Gaussian Designs.

Matey Neykov, Jun S. Liu|PubMed|2016. 05. 01.

Statistical Methods and Inference참고 문헌 43인용 수 35

한 줄 요약

이 논문은 L1-정규화된 최소제곱법(LASSO)이 가우시안 설계를 가진 고차원 단일색인모형(SIMs)에서 계수 벡터의 지지집합을 최적으로 복원할 수 있음을 보여주며, 연결 함수와 오차 분포에 대한 온건한 조건 하에서 근사 최소최대 최적 성능을 달성한다. 이는 모형의 복잡도 조정된 표본 크기 $ n_{p,s} = n / (s \log(p-s)) $ 가 충분히 클 경우 성립하며, 선형 모형을 초월해 비선형 SIMs로 LASSO의 지지집합 복원 성능을 확장한다.

ABSTRACT

It is known that for a certain class of single index models (SIMs) [Formula: see text], support recovery is impossible when X ~ 𝒩(0, 𝕀 p×p ) and a model complexity adjusted sample size is below a critical threshold. Recently, optimal algorithms based on Sliced Inverse Regression (SIR) were suggested. These algorithms work provably under the assumption that the design X comes from an i.i.d. Gaussian distribution. In the present paper we analyze algorithms based on covariance screening and least squares with L1 penalization (i.e. LASSO) and demonstrate that they can also enjoy optimal (up to a scalar) rescaled sample size in terms of support recovery, albeit under slightly different assumptions on f and ε compared to the SIR based algorithms. Furthermore, we show more generally, that LASSO succeeds in recovering the signed support of β0 if X ~ 𝒩 (0, Σ), and the covariance Σ satisfies the irrepresentable condition. Our work extends existing results on the support recovery of LASSO for the linear model, to a more general class of SIMs.

연구 동기 및 목표

고차원 단일색인모형(SIMs)에서 가우시안 공변수를 가진 경우 LASSO가 계수 벡터의 진짜 지지집합을 복원할 수 있는 조건을 확립하는 것.
기존의 선형 모형에 대한 LASSO 지지집합 복원 이론을 연결 함수와 오차 분포가 미리 정의되지 않은 더 넓은 SIM 클래스로 확장하는 것.
가우시안 설계 하에서 특정 SIM 클래스에 대해 LASSO가 지지집합 복원의 최적(스칼라 인자까지) 표본 크기 스케일링을 달성할 수 있음을 보여주는 것.
설계 행렬이 다변량 정규분포를 따르며 공분산이 비대칭 조건을 만족할 경우, 공분산 스크리닝과 LASSO가 지지집합 복원에 효과적임을 보여주는 것.

제안 방법

저자는 단일색인모형(SIMs)에서 지지집합 복원을 위해 LASSO 추정량 $ \widehat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \left\{ \frac{1}{2n} \sum_{i=1}^n (Y_i - \mathbf{X}_i^T \boldsymbol{\beta})^2 + \lambda \|\boldsymbol{\beta}\|_1 \right\} $ 을 분석한다.
모형의 공분산 행렬 $ \boldsymbol{\Sigma} $ 가 비대칭 조건을 만족할 경우, $ \mathbf{X} \sim \mathcal{N}(0, \boldsymbol{\Sigma}) $ 이면 LASSO가 $ \boldsymbol{\beta}_0 $ 의 부호 지지집합을 복원함을 입증한다.
분석은 리프시츠 농도 농도의 구면 상에서의 농도 불등식과 카이제곱 분포의 尾부 확률 경계 등 고차원 확률 도구에 기반한다.
이론적 결과는 연결 함수 $ f $ 와 오차 분포 $ \varepsilon $ 가 명시되지 않았지만 온건한 정규성 조건을 만족한다고 가정한다.
저자는 LASSO의 성능을 슬라이스드 인버스 리그레션(SIR)과 비교하여, $ f $ 와 $ \varepsilon $ 에 대한 다양한 가정 하에서 LASSO가 유사한 최적의 표본 크기 스케일링을 달성함을 보여준다.
핵심 기술적 단계로는 비모수적 추정치 $ \widehat{g}(Y_i) $ 와 $ \mathbf{X}_i^T \boldsymbol{\beta}_0 $ 간의 경험적 내적을 균일한 경계와 농도 불등식을 통해 통제하는 것이다.

실험 결과

연구 질문

RQ1고차원 단일색인모형에서 가우시안 설계를 가진 경우 LASSO로 $ \boldsymbol{\beta}_0 $ 의 지지집합을 복원할 수 있는가?
RQ2연결 함수 $ f $ 와 오차 분포 $ \varepsilon $ 에 대해 어떤 조건에서 LASSO가 SIMs에서 최적의 지지집합 복원을 달성하는가?
RQ3표본 크기 요구사항 측면에서 LASSO의 성능이 SIR 기반 방법과 유사한가?
RQ4공분산 행렬 $ \boldsymbol{\Sigma} $ 에 대한 비대칭 조건이 SIMs에서 LASSO의 일관된 지지집합 복원을 보장하는가?
RQ5모형이 잘못 지정된 경우에도 LASSO는 SIMs에서 지지집합 복원에 대해 근사 최소최대 최적 표본 크기 스케일링을 달성할 수 있는가?

주요 결과

LASSO는 모형의 복잡도 조정된 표본 크기 $ n_{p,s} = n / (s \log(p-s)) $ 가 충분히 클 경우 고차원 단일색인모형에서 최적의 지지집합 복원을 달성한다.
공분산 행렬 $ \boldsymbol{\Sigma} $ 에 대한 비대칭 조건을 만족할 경우 성공적으로 복원되며, 이는 LASSO의 지지집합 복원 성능을 비선형 SIMs로 확장한다.
i.i.d. 가우시안 설계($ \boldsymbol{\Sigma} = \mathbb{I}_{p \times p} $)의 경우, 단순한 공분산 스크리닝 절차가 LASSO 기반으로 유사한 지지집합 복원 성능을 달성한다.
연결 함수 $ f $ 와 오차 분포 $ \varepsilon $ 에 대해 온건한 정규성 조건이 만족되면 이론적 보장이 유지되며, 진짜 모형이 비선형인 경우에도 성립한다.
LASSO 기반 접근법은 가우시안 설계를 가진 광범위한 SIM 클래스에서 근사 최소최대 최적 표본 크기 스케일링을 달성한다(스칼라 인자까지).
분석 결과, LASSO는 비선형 관계일지라도 진짜 지지집합을 일관되게 복원할 수 있어 모형 오지정에 대해 강건함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.

[논문 리뷰] <i>L</i><sub>1</sub>-Regularized Least Squares for Support Recovery of High Dimensional Single Index Models with Gaussian Designs.