QUICK REVIEW

[논문 리뷰] Selective Sequential Model Selection

William Fithian, Jonathan Taylor|arXiv (Cornell University)|2015. 12. 08.

Machine Learning and Algorithms참고 문헌 28인용 수 40

한 줄 요약

이 논문은 데이터에 따라 결정되는 모델 선택을 고려하여, 점진적 모델 복잡도 경로(예: 전진 단계 회귀 또는 라소)에서 각 단계에서 유효한 p-값을 생성하는 프레임워크를 제안한다. 선택적 max-t 검정과 다음 항목 검정을 도입하여 귀무가설 하에서 독립적이고 균일하게 분포하는 p-값을 제공함으로써, 강한 오류율 보장을 갖는 FDR 제어를 위한 순차적 멈춤 규칙을 가능하게 한다.

ABSTRACT

Many model selection algorithms produce a path of fits specifying a sequence of increasingly complex models. Given such a sequence and the data used to produce them, we consider the problem of choosing the least complex model that is not falsified by the data. Extending the selected-model tests of Fithian et al. (2014), we construct p-values for each step in the path which account for the adaptive selection of the model path using the data. In the case of linear regression, we propose two specific tests, the max-t test for forward stepwise regression (generalizing a proposal of Buja and Brown (2014)), and the next-entry test for the lasso. These tests improve on the power of the saturated-model test of Tibshirani et al. (2014), sometimes dramatically. In addition, our framework extends beyond linear regression to a much more general class of parametric and nonparametric model selection problems. To select a model, we can feed our single-step p-values as inputs into sequential stopping rules such as those proposed by G'Sell et al. (2013) and Li and Barber (2015), achieving control of the familywise error rate or false discovery rate (FDR) as desired. The FDR-controlling rules require the null p-values to be independent of each other and of the non-null p-values, a condition not satisfied by the saturated-model p-values of Tibshirani et al. (2014). We derive intuitive and general sufficient conditions for independence, and show that our proposed constructions yield independent p-values.

연구 동기 및 목표

모델 복잡도가 점진적으로 증가하는 경로에서 적응적 모델 선택 이후의 유효한 통계적 추론 문제를 해결한다.
선택된 모델 경로의 데이터 의존적 선택을 고려한 p-값을 개발하여, 선택 편향이 존재하더라도 유형 I 오류 비율을 제어한다.
독립적인 p-값이 필요한 조건을 충족하지 못하는 기존의 포화 모델 p-값과는 달리, ForwardStop, Li-Barber 등의 순차적 멈춤 규칙을 사용할 수 있도록 한다.
선형 모델을 초월하여 일반적인 파라미터 모델 및 비모수 설정(예: 변화점 탐지 포함)으로 프레임워크를 확장한다.
순차적 멈춤 규칙에서 사용되는 p-값이 귀무가설 하에서 상호 독립이 되도록 보장한다. 이는 순차적 설정에서 FDR 제어를 위해 필수적인 조건이다.

제안 방법

선택 이벤트를 조건으로 하여 조건부 추론을 기반으로 선택적 p-값을 구성하며, 충분통계량과 모델 경로 이력에 대해 조건화한다.
전진 단계 회귀의 경우, 선택적 max-t 검정을 제안하여, 선택된 모델 경로를 조건으로 한 최대 t-통계량의 조건부 분포를 기반으로 p-값을 계산한다.
라소의 경우, 다음 항목 검정을 도입하여, 조건부 귀무분포 하에서 다음으로 모델에 포함될 변수의 유의성을 평가한다.
선택 이벤트와 검정 통계량이 각 단계에서 조건부 독립이 되는 조건을 도출함으로써, 귀무가설 하에서 p-값의 독립성을 확보한다.
비모수적 변화점 탐지에 적용하기 위해, 두 표본 검정 통계량을 기반으로 변화점을 추가하는 탐욕적 경로 알고리즘을 정의하고, 순열 표본을 통해 p-값을 유도한다.
재표본화(순열 또는 MCMC)를 사용하여 조건부 귀무가설 하에서 정확한 p-값을 계산함으로써, 모델 선택 하에서도 균일성과 유효성을 보장한다.

실험 결과

연구 질문

RQ1데이터에 따라 결정되는 모델 순서의 각 단계에서 유효한 p-값을 구성할 수 있는가? 이는 모델 순서의 데이터 의존적 선택을 고려한 것이다.
RQ2제안된 p-값은 ForwardStop, Li-Barber와 같은 FDR 제어를 위한 순차적 멈춤 규칙에서 요구하는 독립성 조건을 충족하는가?
RQ3이 프레임워크는 선형 모델을 초월하여 일반적인 파라미터 및 비모수 설정(예: 변화점 탐지)으로 확장될 수 있는가?
RQ4Tibshirani 등(2014)의 포화 모델 p-값과 비교해 볼 때, 제안된 검정들(예: max-t, next-entry)의 검정력은 어떻게 되는가?
RQ5선택적 추론 프레임워크에서 유도된 p-값이 귀무가설 하에서 상호 독립이 되는 충분조건는 무엇인가?

주요 결과

선택적 max-t 검정과 다음 항목 검정은 귀무가설 하에서 균일하게 분포하고 각 단계에서 상호 독립적인 p-값을 생성하여, FDR 제어에 필요한 조건을 충족한다.
제안된 p-값은 Tibshirani 등(2014)의 포화 모델 p-값보다 유의적으로 높은 통계적 검정력을 확보하며, 특히 모델 선택의 초기 단계에서 두드러진다.
당뇨병 데이터셋에서 max-t p-값은 단계 8(지수 glu²)에서 모델 선택을 유도한 반면, 포화 모델 p-값은 단계 9(age²)에서 선택함으로써 의미 있는 예측변수를 더 이르게 탐지함을 보여준다.
선택적 모델 경로일지라도 충분통계량과 선택 이력에 조건화함으로써 p-값이 유효함을 보장한다.
비모수적 변화점 탐지의 경우, 두 표본 검정 통계량을 기반으로 한 탐욕적 경로 알고리즘은 순열 표본을 통해 유효한 p-값을 생성하며, 선택 과정의 구조 덕분에 귀무가설 하에서 독립성이 보장된다.
p-값이 귀무가설 하에서 독립이 되는 조건을 이론적으로 도출하였으며, 이는 선형 모델을 초월하여 광범위한 파라미터 및 비모수 문제에 일반화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.