Skip to main content
QUICK REVIEW

[논문 리뷰] <i>L</i><sub>1</sub>-Regularized Least Squares for Support Recovery of High Dimensional Single Index Models with Gaussian Designs.

Matey Neykov, Jun S. Liu|PubMed|2016. 05. 01.
Statistical Methods and Inference참고 문헌 43인용 수 35
한 줄 요약

이 논문은 L1-정규화된 최소제곱법(LASSO)이 가우시안 설계를 가진 고차원 단일색인모형(SIMs)에서 계수 벡터의 지지집합을 최적으로 복원할 수 있음을 보여주며, 연결 함수와 오차 분포에 대한 온건한 조건 하에서 근사 최소최대 최적 성능을 달성한다. 이는 모형의 복잡도 조정된 표본 크기 $ n_{p,s} = n / (s \log(p-s)) $ 가 충분히 클 경우 성립하며, 선형 모형을 초월해 비선형 SIMs로 LASSO의 지지집합 복원 성능을 확장한다.

ABSTRACT

It is known that for a certain class of single index models (SIMs) [Formula: see text], support recovery is impossible when <b><i>X</i></b> ~ 𝒩(0, 𝕀 <i><sub>p</sub></i><sub>×</sub><i><sub>p</sub></i> ) and a <i>model complexity adjusted sample size</i> is below a critical threshold. Recently, optimal algorithms based on Sliced Inverse Regression (SIR) were suggested. These algorithms work provably under the assumption that the design <b><i>X</i></b> comes from an i.i.d. Gaussian distribution. In the present paper we analyze algorithms based on covariance screening and least squares with <i>L</i><sub>1</sub> penalization (i.e. LASSO) and demonstrate that they can also enjoy optimal (up to a scalar) rescaled sample size in terms of support recovery, albeit under slightly different assumptions on <i>f</i> and <i>ε</i> compared to the SIR based algorithms. Furthermore, we show more generally, that LASSO succeeds in recovering the signed support of <b><i>β</i></b><sub>0</sub> if <b><i>X</i></b> ~ 𝒩 (0, <b>Σ</b>), and the covariance <b>Σ</b> satisfies the irrepresentable condition. Our work extends existing results on the support recovery of LASSO for the linear model, to a more general class of SIMs.

연구 동기 및 목표

  • 고차원 단일색인모형(SIMs)에서 가우시안 공변수를 가진 경우 LASSO가 계수 벡터의 진짜 지지집합을 복원할 수 있는 조건을 확립하는 것.
  • 기존의 선형 모형에 대한 LASSO 지지집합 복원 이론을 연결 함수와 오차 분포가 미리 정의되지 않은 더 넓은 SIM 클래스로 확장하는 것.
  • 가우시안 설계 하에서 특정 SIM 클래스에 대해 LASSO가 지지집합 복원의 최적(스칼라 인자까지) 표본 크기 스케일링을 달성할 수 있음을 보여주는 것.
  • 설계 행렬이 다변량 정규분포를 따르며 공분산이 비대칭 조건을 만족할 경우, 공분산 스크리닝과 LASSO가 지지집합 복원에 효과적임을 보여주는 것.

제안 방법

  • 저자는 단일색인모형(SIMs)에서 지지집합 복원을 위해 LASSO 추정량 $ \widehat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \left\{ \frac{1}{2n} \sum_{i=1}^n (Y_i - \mathbf{X}_i^T \boldsymbol{\beta})^2 + \lambda \|\boldsymbol{\beta}\|_1 \right\} $ 을 분석한다.
  • 모형의 공분산 행렬 $ \boldsymbol{\Sigma} $ 가 비대칭 조건을 만족할 경우, $ \mathbf{X} \sim \mathcal{N}(0, \boldsymbol{\Sigma}) $ 이면 LASSO가 $ \boldsymbol{\beta}_0 $ 의 부호 지지집합을 복원함을 입증한다.
  • 분석은 리프시츠 농도 농도의 구면 상에서의 농도 불등식과 카이제곱 분포의 尾부 확률 경계 등 고차원 확률 도구에 기반한다.
  • 이론적 결과는 연결 함수 $ f $ 와 오차 분포 $ \varepsilon $ 가 명시되지 않았지만 온건한 정규성 조건을 만족한다고 가정한다.
  • 저자는 LASSO의 성능을 슬라이스드 인버스 리그레션(SIR)과 비교하여, $ f $ 와 $ \varepsilon $ 에 대한 다양한 가정 하에서 LASSO가 유사한 최적의 표본 크기 스케일링을 달성함을 보여준다.
  • 핵심 기술적 단계로는 비모수적 추정치 $ \widehat{g}(Y_i) $ 와 $ \mathbf{X}_i^T \boldsymbol{\beta}_0 $ 간의 경험적 내적을 균일한 경계와 농도 불등식을 통해 통제하는 것이다.

실험 결과

연구 질문

  • RQ1고차원 단일색인모형에서 가우시안 설계를 가진 경우 LASSO로 $ \boldsymbol{\beta}_0 $ 의 지지집합을 복원할 수 있는가?
  • RQ2연결 함수 $ f $ 와 오차 분포 $ \varepsilon $ 에 대해 어떤 조건에서 LASSO가 SIMs에서 최적의 지지집합 복원을 달성하는가?
  • RQ3표본 크기 요구사항 측면에서 LASSO의 성능이 SIR 기반 방법과 유사한가?
  • RQ4공분산 행렬 $ \boldsymbol{\Sigma} $ 에 대한 비대칭 조건이 SIMs에서 LASSO의 일관된 지지집합 복원을 보장하는가?
  • RQ5모형이 잘못 지정된 경우에도 LASSO는 SIMs에서 지지집합 복원에 대해 근사 최소최대 최적 표본 크기 스케일링을 달성할 수 있는가?

주요 결과

  • LASSO는 모형의 복잡도 조정된 표본 크기 $ n_{p,s} = n / (s \log(p-s)) $ 가 충분히 클 경우 고차원 단일색인모형에서 최적의 지지집합 복원을 달성한다.
  • 공분산 행렬 $ \boldsymbol{\Sigma} $ 에 대한 비대칭 조건을 만족할 경우 성공적으로 복원되며, 이는 LASSO의 지지집합 복원 성능을 비선형 SIMs로 확장한다.
  • i.i.d. 가우시안 설계($ \boldsymbol{\Sigma} = \mathbb{I}_{p \times p} $)의 경우, 단순한 공분산 스크리닝 절차가 LASSO 기반으로 유사한 지지집합 복원 성능을 달성한다.
  • 연결 함수 $ f $ 와 오차 분포 $ \varepsilon $ 에 대해 온건한 정규성 조건이 만족되면 이론적 보장이 유지되며, 진짜 모형이 비선형인 경우에도 성립한다.
  • LASSO 기반 접근법은 가우시안 설계를 가진 광범위한 SIM 클래스에서 근사 최소최대 최적 표본 크기 스케일링을 달성한다(스칼라 인자까지).
  • 분석 결과, LASSO는 비선형 관계일지라도 진짜 지지집합을 일관되게 복원할 수 있어 모형 오지정에 대해 강건함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.