QUICK REVIEW

[논문 리뷰] Inference in High Dimensions with the Penalized Score Test

Arend Voorman, Ali Shojaie|arXiv (Cornell University)|2014. 01. 12.

Statistical Methods and Inference참고 문헌 35인용 수 26

한 줄 요약

이 논문은 고차원 회귀에서 개별 예측 변수에 대한 p-값과 유의성 검정을 가능하게 하는 고차원 추론를 위한 정규화된 점수 검정을 제안한다. 결과 변수를 제외한 모든 예측 변수에 대해 순차적으로 회귀를 수행하고, 보류된 예측 변수와 잔차 간의 상관관계를 검정함으로써, l1 및 l2 정규화 모두에서 타당한 추론을 제공한다. 라소의 희박성 패턴은 검정 기반 선택 결정과 정확히 일치한다.

ABSTRACT

In recent years, there has been considerable theoretical development regarding variable selection consistency of penalized regression techniques, such as the lasso. However, there has been relatively little work on quantifying the uncertainty in these selection procedures. In this paper, we propose a new method for inference in high dimensions using a score test based on penalized regression. In this test, we perform penalized regression of an outcome on all but a single feature, and test for correlation of the residuals with the held-out feature. This procedure is applied to each feature in turn. Interestingly, when an $\ell_1$ penalty is used, the sparsity pattern of the lasso corresponds exactly to a decision based on the proposed test. Further, when an $\ell_2$ penalty is used, the test corresponds precisely to a score test in a mixed effects model, in which the effects of all but one feature are assumed to be random. We formulate the hypothesis being tested as a compromise between the null hypotheses tested in simple linear regression on each feature and in multiple linear regression on all features, and develop reference distributions for some well-known penalties. We also examine the behavior of the test on real and simulated data.

연구 동기 및 목표

고차원 설정에서 변수 선택을 위한 공식적인 추론 방법, 특히 개별 계수에 대한 p-값과 신뢰구간의 부재를 해결한다.
부트스트랩, 서브샘플링, 공분산 검정과 같은 기존 방법의 한계를 극복한다. 이는 계산이 비용이 많이 들거나 라소의 비영인 계수에 국한된다.
모든 예측 변수에 대한 추론을 가능하게 하는 통합 프레임워크를 개발한다. 이는 다른 예측 변수 조건 하에 근사 유의성 검정을 통해 이루어진다.
공통 정규화(예: l1 및 l2) 하에서 검정 통계량의 이론적 기준 분포를 확립하여 타당한 점근적 추론을 보장한다.
정규화된 점수 검정을 기존 모델과 연결한다. l1 정규화는 라소 기반 선택과 대응하고, l2 정규화는 다른 예측 변수에 대한 랜덤 효과를 가진 혼합 효과 모델과 대응한다.

제안 방법

각 예측 변수에 대해, 관심 있는 예측 변수를 제외한 나머지 모든 예측 변수에 대해 정규화된 회귀를 수행한다.
잔차와 보류된 예측 변수 간의 상관계수를 점수 검정 통계량으로 계산한다.
l1 정규화를 사용하여 희박성을 유도하며, 이로 인해 검정의 결정 기준이 라소의 변수 선택 패턴과 정확히 일치한다.
l2 정규화를 사용하여 다른 예측 변수의 효과를 랜덤 효과로 간주함으로써, 검정 통계량을 혼합 효과 모델의 점수 통계량과 연결한다.
정규 조건 하에서 검정 통계량의 점근적 귀무분포를 유도하며, 귀무가설 하에서 표준 정규분포로 수렴함을 보여준다.
레마 A.3 및 A.4를 통해 이론적 타당성을 확립한다. 이는 린데버그-플러러 중심극한정리와 모멘트 조건에 기반하여 귀무가설 하에서 검정 통계량이 정규분포로 수렴함을 보여준다.

실험 결과

연구 질문

RQ1모든 예측 변수에 적용 가능한, 계산적으로 효율적이고 이론적으로 타당한 고차원 회귀에서의 p-값 계산 방법을 개발할 수 있는가? 이는 라소에 의해 선택된 변수에 국한되지 않는다.
RQ2정규화된 점수 검정은 라소의 변수 선택 패턴과 어떻게 관련되어 있으며, 라소의 희박성에 대한 공식적 정당성을 제공하는가?
RQ3l1 또는 l2 정규화를 사용할 경우, 귀무가설 하에서 검정 통계량의 점근적 분포는 무엇인가?
RQ4정규화된 점수 검정은 고차원에서 단순 회귀와 다중 회귀 추론 사이의 타협으로 해석될 수 있는가?
RQ5유한 표본에서 이 검정은 어떻게 작동하며, 시뮬레이션과 실제 데이터에서 올바른 제1종 오류 비율을 유지하는가?

주요 결과

l1 정규화를 사용한 정규화된 점수 검정은 라소의 변수 선택 규칙과 정확히 일치하는 기각 영역을 가지며, 라소의 희박성에 대한 공식적 추론적 정당성을 제공한다.
l2 정규화 하에서 검정 통계량은 다른 예측 변수의 계수를 랜덤 효과로 간주하는 혼합 효과 모델의 점수 통계량과 대응한다.
린데버그 조건이 성립하고 예측 변수의 잔차에 대한 影향이 표본 크기 대비 점차 감소할 경우, 귀무가설 하에서 검정 통계량은 점근적으로 표준 정규분포를 따른다.
시뮬레이션과 당뇨병 데이터셋에 대한 실제 데이터 분석을 통해, 이 방법은 표본 수가 유한할 때도 타당한 제1종 오류 통제를 유지한다.
검정은 라소에 의해 선택되지 않은 예측 변수에 대해서도 추론을 가능하게 하여, 선택된 특징에 국한된 기존 방법보다 더 포괄적인 변수 유의성 이해를 가능하게 한다.
부트스트랩 및 서브샘플링에 비해 계산적으로 효율적이며, 많은 기존 분산 추정 방법에서 문제되는 튜닝 파rameter 선택 편향을 피한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.