QUICK REVIEW

[논문 리뷰] Multiple testing with the structure adaptive Benjamini-Hochberg algorithm

Ang Li, Rina Foygel Barber|arXiv (Cornell University)|2016. 06. 25.

Statistical Methods in Clinical Trials참고 문헌 18인용 수 29

한 줄 요약

이 논문은 구조적 패턴(예: 그룹화, 순서, 총 변동량이 낮음)이 알려진 다중 검정 상황에서 검정력 향상을 위해 데이터에 적응적인 가중치를 사용해 p-값을 재가중하는 SABHA라는 구조 적응형 벤자민-하오크베르그 알고리즘을 제안한다. SABHA는 목표 수준 약 略 높은 수준에서 FDR를 통제하며, 초과 FDR는 가중치 클래스의 라데마처 복잡도에 의해 유계화되어, 유의 신호가 많은 영역에서 더 높은 발견률을 달성하면서도 유형 I 오류가 증가하지 않도록 한다.

ABSTRACT

In multiple testing problems, where a large number of hypotheses are tested simultaneously, false discovery rate (FDR) control can be achieved with the well-known Benjamini-Hochberg procedure, which adapts to the amount of signal present in the data. Many modifications of this procedure have been proposed to improve power in scenarios where the hypotheses are organized into groups or into a hierarchy, as well as other structured settings. Here we introduce SABHA, the "structure-adaptive Benjamini-Hochberg algorithm", as a generalization of these adaptive testing methods. SABHA incorporates prior information about any pre-determined type of structure in the pattern of locations of the signals and nulls within the list of hypotheses, to reweight the p-values in a data-adaptive way. This raises the power by making more discoveries in regions where signals appear to be more common. Our main theoretical result proves that SABHA controls FDR at a level that is at most slightly higher than the target FDR level, as long as the adaptive weights are constrained sufficiently so as not to overfit too much to the data-interestingly, the excess FDR can be related to the Rademacher complexity or Gaussian width of the class from which we choose our data-adaptive weights. We apply this general framework to various structured settings, including ordered, grouped, and low total variation structures, and get the bounds on FDR for each specific setting. We also examine the empirical performance of SABHA on fMRI activity data and on gene/drug response data, as well as on simulated data.

연구 동기 및 목표

표준 다중 검정 절차가 신호와 귀무가설 위치의 알려진 구조적 패턴을 무시하고 모든 귀무가설을 동등하게 취급하는 한계를 해결하기 위해.
그룹화, 순서, 공간적 군집화와 같은 사전 구조 지식을 FDR 통제 절차에 통합할 수 있는 일반적 프레임워크를 개발하기 위해.
p-값이 종속되어 있을 경우에도, 라데마처 복잡도와 같은 복잡도 측도를 통해 과적합을 제약함으로써 유한 표본에서의 FDR 통제 보장을 보장하는 데이터 적응형 가중치 사용에 대해.
fMRI 및 유전자 발현 데이터와 같은 다양한 구조적 설정에서 실제 및 시뮬레이션 데이터를 사용해, 방법의 실증적 효능을 입증하기 위해.

제안 방법

SABHA는 사전 구조적 가정(예: 그룹화, 순서, 낮은 변동성)에서 유도된 데이터 적응형 가중치를 사용해 p-값을 재가중함으로써, 더 높은 유의성 밀도 영역에서 더 높은 민감도를 달성한다.
이 방법은 재거전 임계값을 가중 p-값을 통해 조정하는 수정된 벤자민-하오크베르그 절차를 사용하며, 가중치는 각 영역 내 기대 신호 확률을 반영하도록 선택된다.
과적합을 방지하기 위해 라데마처 복잡도 또는 가우시안 너비와 같은 복잡도 측도를 통해 가중치 클래스를 제약함으로써 FDR 통제를 보장한다.
플러그인 추정기를 사용해 각 구조적 단위(예: 그룹, 간격) 내 귀무가설 비율을 추정함으로써, 적응형 가중치 설계에 정보를 제공한다.
이 절차는 독립적 또는 양의 종속성 p-값(즉, PRDS 조건 하)에 적용 가능하여 실용적 활용도를 넓힌다.
핵심 요소로는 과적합 위험의 이론적 경계를 통해 신호 탐지 능력과 FDR 통제를 균형 잡는 데이터 적응형 가중치 선택 메커니즘이 있다.

실험 결과

연구 질문

RQ1신호 및 귀무가설 위치의 알려진 구조적 패턴을 반영함으로써 다중 검정 절차의 검정력을 향상시킬 수 있는가?
RQ2FDR 통제를 훼손하지 않으면서도 구조적 정보를 기반으로 p-값에 적응형 가중치를 할당할 수 있는가?
RQ3구조적 제약 하에서 데이터 적응형 가중치를 사용할 경우 FDR 통제에 대해 이론적으로 보장할 수 있는 보장 조건는 무엇인가?
RQ4SABHA는 BH 및 스토리-BH와 같은 기존 방법과 비교해 구조적 데이터에서 발견률과 FDR 통제 측면에서 어떻게 다를까?
RQ5fMRI나 유전자-약물 반응 연구와 같은 실제 응용 설정에서 SABHA는 의미 있는 발견력 향상을 가져오는가?

주요 결과

fMRI 데이터에서 SABHA는 1,234건의 발견을 하였고, BH(931건)와 스토리-BH(1,217건)를 뛰어넘었으며, 유의 신호 밀도가 높다고 추정되는 ROI에서 발견의 증가가 집중되었다.
SABHA에서 추정한 ROI당 귀무가설 비율(bq)은 발견률 향상이 일어난 위치를 잘 예측하였으며, 특히 bq가 가장 낮은 ROI에서 가장 큰 향상이 관찰되었다.
유전자/약물 반응 데이터에서 SABHA는 동일한 FDR 목표(α = 0.2) 하에서 BH 및 스토리-BH보다 더 높은 발견률을 달성하였으며, 특히 신호가 군집되어 있을 경우에 유의미했다.
이론적 분석 결과, SABHA가 유도하는 초과 FDR는 가중치 클래스의 라데마처 복잡도에 의해 유계화되어 있음을 확인하였으며, 이는 적응형 가중치 사용 시에도 FDR 통제가 보장됨을 의미한다.
시뮬레이션 결과, SABHA는 명목상 α 수준 약 略 높은 수준에서 FDR 통제를 유지하면서도, 구조적 신호 패턴 하에서 표준 BH 및 스토리-BH보다 더 높은 검정력을 확보하였다.
순서, 그룹화, 총 변동량이 낮은 구조 등 다양한 구조에서의 시험을 통해 SABHA의 일반성과 다양한 데이터 패턴에 대한 적응 가능성의 우수함을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.