QUICK REVIEW

[논문 리뷰] Confounder Adjustment in Multiple Hypothesis Testing

Jingshu Wang, Qingyuan Zhao|arXiv (Cornell University)|2015. 08. 17.

Statistical Methods in Clinical Trials참고 문헌 63인용 수 24

한 줄 요약

이 논문은 RUV-4와 LEAPP를 다중 주요 변수 및 혼란 변수에 일반화하여 대규모 다중 가설 검정에서 혼란 변수 보정 방법을 통합한다. 강한 혼란 변수가 존재할 경우 추정기들이 오라클 추정기와 점차적으로 동일한 검정력을 가지는 이론적 보장을 제공하며, 점차적 z-검정이 유의수준 오류를 제어하고, 중간 크기의 표본 크기에서 Benjamini-Hochberg 절차가 FDR를 제어함을 보여준다.

ABSTRACT

We consider large-scale studies in which thousands of significance tests are performed simultaneously. In some of these studies, the multiple testing procedure can be severely biased by latent confounding factors such as batch effects and unmeasured covariates that correlate with both primary variable(s) of interest (e.g. treatment variable, phenotype) and the outcome. Over the past decade, many statistical methods have been proposed to adjust for the confounders in hypothesis testing. We unify these methods in the same framework, generalize them to include multiple primary variables and multiple nuisance variables, and analyze their statistical properties. In particular, we provide theoretical guarantees for RUV-4 and LEAPP, which correspond to two different identification conditions in the framework: the first requires a set of "negative controls" that are known a priori to follow the null distribution; the second requires the true non-nulls to be sparse. Two different estimators which are based on RUV-4 and LEAPP are then applied to these two scenarios. We show that if the confounding factors are strong, the resulting estimators can be asymptotically as powerful as the oracle estimator which observes the latent confounding factors. For hypothesis testing, we show the asymptotic z-tests based on the estimators can control the type I error. Numerical experiments show that the false discovery rate is also controlled by the Benjamini-Hochberg procedure when the sample size is reasonably large.

연구 동기 및 목표

주요 변수와 결과 모두와 상관관계가 있는 잠재적 혼란 변수, 예를 들어 배치 효과나 측정되지 않은 공변량 등으로 인한 편향이 발생하는 다중 가설 검정 문제를 다룬다.
특히 RUV-4와 LEAPP를 포함한 기존 혼란 변수 보정 방법을 다중 주요 변수 및 혼란 변수에 일반화한 단일 통계적 프레임워크로 통합한다.
두 가지 다른 식별 조건 하에서 추정기의 점차적 타당성을 위한 이론적 근거를 제공한다: 음성 대조군(음성 변수)을 사용한 RUV-4와 비효율 효과의 흩어진 분포를 가정한 LEAPP.
혼란 변수 보정 추정기가 진정한 잠재적 혼란 변수를 관측하는 오라클 추정기와 유사한 점차적 검정력을 확보함을 보여준다.
제안된 프레임워크 하에서 하류의 추론, 즉 점차적 z-검정과 Benjamini-Hochberg FDR 제어가 정확한 오류 비율을 유지함을 보장한다.

제안 방법

주요 변수, 혼란 변수, 오차 항을 포함한 선형 모형을 설정하며, 혼란 변수는 잠재적이고 주요 변수 및 결과와 상관관계가 있음을 가정한다.
두 가지 추정기 제안: 음성 대조군(영변수)을 사용해 혼란 변수를 추정하는 RUV-4 기반 추정기와 비효율 효과의 흩어진 분포를 가정하는 LEAPP 기반 추정기.
강건한 회귀분석과 대체 변수 분석을 사용해 데이터로부터 잠재적 혼란 변수를 추정하며, 음성 대조군 또는 흩어진 분포를 활용해 혼란의 구조를 식별한다.
중앙극한정리와 마팅게일 유사 추론을 통해 검정 통계량의 점차적 정규성을 확립하여 z-검정에서 타입 I 오류 제어가 유효함을 보장한다.
FDR 제어를 위해 Benjamini-Hochberg 절차를 적용하며, 중간 크기의 표본 크기에서 경험적 FDR 제어를 보여준다.
고차원 점차적 이론을 활용해 혼란 변수 추정기의 이론적 수렴 속도를 유도하며, 추정 계수의 일致성과 점차적 정규성을 확보한다.

실험 결과

연구 질문

RQ1혼란 변수 보정 방법은 다중 주요 변수 및 혼란 변수로 일반화 가능한 단일 프레임워크 하에서 통합될 수 있는가?
RQ2RUV-4와 LEAPP 추정기가 진정한 혼란 변수를 관측하는 오라클 추정기와 유사한 점차적 효율성을 달성하는 조건은 무엇인가?
RQ3제안된 혼란 변수 보정이 점차적 z-검정에서 타입 I 오류 제어를 유지하는가?
RQ4유한 표본 크기에서 혼란 변수 보정 이후 Benjamini-Hochberg 절차가 신뢰성 있게 FDR를 제어할 수 있는가?
RQ5다양한 수준의 혼란 강도와 비효율 효과의 흩어진 정도에서 추정기는 어떻게 성능을 발휘하는가?

주요 결과

혼란이 강력할 경우 RUV-4와 LEAPP 추정기는 진정한 잠재적 혼란 변수를 관측하는 오라클 추정기와 점차적으로 동일한 검정력을 가지는 것으로 나타났다.
혼란이 존재하더라도 영가설 하에서 보정된 추정기 기반 점차적 z-검정은 타입 I 오류를 제어한다.
수치 실험 결과, 표본 크기가 상당히 클 경우 Benjamini-Hochberg 절차가 FDR을 잘 제어하는 것으로 나타났다.
음성 대조군을 기반으로 한 추정기(RUV-4)는 알려진 영변수 집합이 존재한다는 가정 하에 일致성을 확보한다.
희소성 가정 하에 비효율 효과가 흩어져 있음을 가정한 추정기(LEAPP)는 일치성을 확보하며, 정규화와 고차원 점차적 이론을 통해 수렴 속도가 유도되었다.
이론적 분석을 통해 검정 통계량의 점차적 분포가 정규분포에 잘 근사됨을 확인하여 타당한 추론이 가능함을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.