Skip to main content
QUICK REVIEW

[논문 리뷰] Selective inference in regression models with groups of variables

Joshua R. Loftus, Jonathan Taylor|arXiv (Cornell University)|2015. 11. 04.
Statistical Methods and Inference참고 문헌 5인용 수 27
한 줄 요약

이 논문은 군집 변수를 가진 회귀 모델에 대한 선택적 추론 프레임워크를 소개하며, 결과의 제곱형을 사용하여 선택된 군집에 대한 정확한 유의성 검정을 가능하게 한다. 알려진 또는 알려지지 않은 분산 하에서 절단된 카이제곱 또는 F 분포를 통해 정확한 p-값을 제공하며, 데이터 분할 없이 선택적 유형 I 오류를 통제한다. 이 방법은 군집을 포함한 전진 단계 선택과 함께 효율적으로 구현된 R 패키지로 제공된다.

ABSTRACT

We provide a general mathematical framework for selective inference with supervised model selection procedures characterized by quadratic forms in the outcome variable. Forward stepwise with groups of variables is an important special case as it allows models with categorical variables or factors. Models can be chosen by AIC, BIC, or a fixed number of steps. We provide an exact significance test for each group of variables in the selected model based on an appropriately truncated $χ$ or $F$ distribution for the cases of known and unknown $σ^2$ respectively. An efficient software implementation is available as a package in the R statistical programming language.

연구 동기 및 목표

  • 전진 단계 선택과 같은 데이터 기반 절차를 사용할 때 회귀 분석에서 잘못된 p-값이 발생하는 문제를 해결한다.
  • 선형 부등식을 초월하는 일반적인 수학적 프레임워크를 개발하여 선택적 추론을 위한 제곱형 기반 기반 틀을 마련한다.
  • 선택된 모델에서 변수 군집의 정확한 유의성 검정을 가능하게 하며, 모델 선택 편향을 고려한다.
  • 선택 및 추론에 모두 전체 데이터를 사용함으로써 효율 손실이 없는 방식으로 전체 검정력을 유지하는 방법을 제공한다.
  • 실제 응용을 위한 실용적 구현을 위해 고차원 회귀에서 구조적 예측 변수를 사용하는 데 적합한 R 패키지를 제공한다.

제안 방법

  • 모델 선택을 결과 변수에 대한 제곱형 부등식으로 설정하여, 선택 영역을 제곱형을 통해 특성화한다.
  • 선택 이벤트를 조건으로 하여 군집 검정 통계량의 정확한 귀무분포를 유도하며, 선택 영역으로 절단된 카이제곱 또는 F 분포를 사용한다.
  • 절단된 분포를 사용하여 최종 모델 내 각 군집에 대한 정확한 p-값을 계산하고, 선택적 유형 I 오류를 통제한다.
  • 모르게 된 오차 분산의 경우 카이제곱 분포, 알려진 경우 F 분포를 사용하며, 적절한 절단을 적용한다.
  • 군집 간 직교성과 꼬리 경계(예: Laurent 및 Massart, 2000)를 활용하여 귀무통계량의 고확률 상한을 도출하고, 검정력 분석에 활용한다.
  • 선택적Inference R 패키지에 효율적으로 구현하여 전진 단계 선택과 함께 군집 기반 예측 변수를 사용할 수 있도록 지원하며, AIC, BIC, 고정 단계 수 등의 다양한 모델 선택 기준을 지원한다.

실험 결과

연구 질문

  • RQ1전진 단계 선택 회귀를 통해 선택된 변수 군집에 대해 선택적 추론을 어떻게 수행할 수 있는가? 이때 선택 절차를 고려해야 한다.
  • RQ2모델 선택 기준으로 BIC와 같은 데이터 기반 기준을 사용할 경우, 군집 유의성 검정에 적절한 귀무분포는 무엇인가?
  • RQ3선택적 추론을 개인 변수를 넘어서 군집으로 확장할 수 있는가? 이때 데이터 분할 없이도 유형 I 오류 통제를 유지할 수 있는가?
  • RQ4모델 선택 편향이 존재할 경우, 제안된 검정의 검정력은 고전적 검정과 비교해 어떻게 되는가?
  • RQ5귀무하에서 최대 검정 통계량에 대한 이론적 경계는 무엇이며, 이는 비귀무군집의 탐지에 어떻게 기여하는가?

주요 결과

  • 제안된 Tχ 및 TF 검정은 모델 선택 이벤트를 조건으로 하여 선택적 유형 I 오류율을 통제하며, 모델이 적응적으로 선택된 경우에도 성립한다.
  • 캘리포니아 카운티 건강 데이터 사례에서 선택적 p-값(예: 부상 사망률에 대해 0.086)은 날것의 p-값(<0.001)보다 훨씬 크며, 선택 편향을 보정한다.
  • n=100, p=100, G=50개의 크기 2인 군집을 가진 시뮬레이션 결과 Tχ 검정은 정확한 크기를 유지하며, 단계별로 0.315에서 0.641 사이의 경험적 검정력을 보였다.
  • 이론적 경계는 50개의 크기 2인 군집에서 귀무 카이제곱 통계량이 27.28를 초과할 확률가 1% 이하임을 보여주며, 이는 비귀무군집이 대부분 조기에 선택될 가능성이 있음을 시사한다.
  • 직교 군집 하에서 1-스pars리 대안에 대해 점근적으로 최적이며, 가우스 및 카이제곱 변수의 꼬리 경계 덕분에 보너페르니 수준의 검정력을 갖는다.
  • 선택적Inference R 패키지는 실제 응용을 가능하게 하며, AIC, BIC 또는 고정 단계 수를 통한 모델 선택과 함께 군집 기반 예측 변수를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.