[논문 리뷰] Control of Generalized Error Rates in Multiple Testing
이 논문은 다중 가설 검정에서 일반화된 오류율을 제어하기 위한 리샘플링 기반 절차를 제안한다. 이는 k-FWER(적어도 k개의 거짓 기각의 확률)와 FDP(거짓 발견 비율)를 포함한다. 부트스트랩과 서브샘플링 방법을 사용하여, 검정 통계량 간의 종속성을 고려한 단계 내림차순 절차를 개발하였으며, 부분집합 편향성 조건을 필요로 하지 않아도 되므로, 유전체학적 고차원 설정에서의 검정력 향상이 가능하다.
Consider the problem of testing $s$ hypotheses simultaneously. The usual approach restricts attention to procedures that control the probability of even one false rejection, the familywise error rate (FWER). If $s$ is large, one might be willing to tolerate more than one false rejection, thereby increasing the ability of the procedure to correctly reject false null hypotheses. One possibility is to replace control of the FWER by control of the probability of $k$ or more false rejections, which is called the $k$-FWER. We derive both single-step and step-down procedures that control the $k$-FWER in finite samples or asymptotically, depending on the situation. We also consider the false discovery proportion (FDP) defined as the number of false rejections divided by the total number of rejections (and defined to be 0 if there are no rejections). The false discovery rate proposed by Benjamini and Hochberg [J. Roy. Statist. Soc. Ser. B 57 (1995) 289--300] controls $E(FDP)$. Here, the goal is to construct methods which satisfy, for a given $γ$ and $α$, $P\{FDP>γ\}\le α$, at least asymptotically. In contrast to the proposals of Lehmann and Romano [Ann. Statist. 33 (2005) 1138--1154], we construct methods that implicitly take into account the dependence structure of the individual test statistics in order to further increase the ability to detect false null hypotheses. This feature is also shared by related work of van der Laan, Dudoit and Pollard [Stat. Appl. Genet. Mol. Biol. 3 (2004) article 15], but our methodology is quite different. Like the work of Pollard and van der Laan [Proc. 2003 International Multi-Conference in Computer Science and Engineering, METMBS'03 Conference (2003) 3--9] and Dudoit, van der Laan and Pollard [Stat. Appl. Genet. Mol. Biol. 3 (2004) article 13], we employ resampling methods to achieve our goals. Some simulations compare finite sample performance to currently available methods.
연구 동기 및 목표
- 약한 종속성 가정 하에 계산적으로 실현 가능한 절차를 개발하여 다중 검정에서 일반화된 오류율을 제어하는 것.
- 기존의 가족 오류율(FWER) 제어를 넘어서 거짓 기각의 허용 수준을 통제함으로써 통계적 검정력을 향상시키는 것.
- 리샘플링을 통해 검정 통계량 간의 종속성 구조를 통합함으로써 기존 방법의 한계를 보완하는 것.
- k-FWER와 임계값 γ를 초과하는 거짓 발견 비율의 확률을 渐近적으로 제어하는 것.
- FDR과 FWER 제어의 중재를 제공하여 고차원 추론에서 제1종 오류와 제2종 오류의 상충관계를 균형 잡는 실용적 대안을 제공하는 것.
제안 방법
- 귀무가설 하에서 검정 통계량의 공동분포를 추정하기 위해 부트스트랩과 서브샘플링을 사용하여 정확한 임계값 계산을 가능하게 한다.
- k-max 통계량을 사용하여 진정한 귀무가설들 중에서 k번째로 큰 검정 통계량을 식별함으로써 k-FWER 제어의 기초를 마련한다.
- 순서화된 검정 통계량과 리샘플링된 임계값에 기반하여 단계별로 가설을 순차적으로 기각하는 단계 내림차순 절차를 적용한다.
- 부트스트랩을 통한 거짓 발견 비율 추정에 기반하여 거부 임계값을 동적으로 조정하는 FDP 제어를 위한 새로운 알고리즘을 도입한다.
- 점근적 이론과 U-통계량 이론을 활용하여 리샘플링 기반 임계값의 타당성을 정당화한다.
- 일부 다른 방법에서 요구하는 부분집합 편향성 조건을 회피함으로써 종속적인 검정 통계량에 대한 적용 가능성을 높인다.
실험 결과
연구 질문
- RQ1리샘플링 기반 절차는 약한 종속성 가정 하에 유한 표본 또는 점근적으로 k-FWER를 제어할 수 있는가?
- RQ2사용자가 지정한 γ ∈ [0,1)에 대해 점근적으로 P(FDP > γ) ≤ α 가 성립하도록 거짓 발견 비율(FDP)을 제어할 수 있는가?
- RQ3검정 통계량 간의 종속성을 어떻게 활용하여 오류율 제어를 위반하지 않으면서 다중 검정 절차의 검정력을 향상시킬 수 있는가?
- RQ4제안된 단계 내림차순 절차는 기존의 단일단계 또는 FDR 제어 방법보다 검정력과 오류율 제어 측면에서 뛰어나게 성능을 발휘하는가?
- RQ5제안된 방법은 부분집합 편향성 조건을 위반하는 종속성 구조에 대해 안정적인가?
주요 결과
- 제안된 단계 내림차순 절차는 부분집합 편향성 조건을 필요로 하지 않으며, 약한 정규성 조건 하에 점근적으로 k-FWER를 제어한다.
- 모든 γ ∈ [0,1)에 대해 점근적으로 P(FDP > γ) ≤ α 를 제어함으로써 FDR 제어보다 더 민첩한 대안을 제공한다.
- 시뮬레이션 결과, 특히 검정 통계량 간의 종속성이 있는 경우 기존 방법보다 뛰어난 검정력을 보였다.
- k-FWER 절차는 k에 대해 단조적이다: k를 증가시킬수록 더 많은 기각이 발생하며, 이는 FDP 제어 알고리즘의 타당성을 뒷받침한다.
- 이론적 정당성은 서브샘플링과 U-통계량 이론에 기반하여 일반적인 종속성 하에서도 점근적 타당성을 보장한다.
- 부록의 반례는 [33]에서 제안한 관련 방법이 모든 귀무가설이 진실일 경우에도 점근적으로 FDP를 제어하지 못함을 보여주며, 본 연구의 접근법의 신선성과 필수성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.