QUICK REVIEW

[論文レビュー] Multiple testing with the structure adaptive Benjamini-Hochberg algorithm

Ang Li, Rina Foygel Barber|arXiv (Cornell University)|Jun 25, 2016

Statistical Methods in Clinical Trials参考文献 18被引用数 29

ひとこと要約

本稿では、構造的パターン（例：グループ化、順序付け、低全 Variation）が既知の複数仮説検定において、データに適応する重みを用いてp値を再重み付けすることで検出力の向上を図る、構造に適応するBenjamini-Hochberg法（SABHA）を提案する。SABHAは、目標FDRよりわずかに高い水準でFDRを制御し、過剰FDRは重みクラスのラダマッチャー複雑度によって有界に保たれる。これにより、信号が豊富な領域での発見率を高めつつ、第一種誤り率を膨張させない。

ABSTRACT

In multiple testing problems, where a large number of hypotheses are tested simultaneously, false discovery rate (FDR) control can be achieved with the well-known Benjamini-Hochberg procedure, which adapts to the amount of signal present in the data. Many modifications of this procedure have been proposed to improve power in scenarios where the hypotheses are organized into groups or into a hierarchy, as well as other structured settings. Here we introduce SABHA, the "structure-adaptive Benjamini-Hochberg algorithm", as a generalization of these adaptive testing methods. SABHA incorporates prior information about any pre-determined type of structure in the pattern of locations of the signals and nulls within the list of hypotheses, to reweight the p-values in a data-adaptive way. This raises the power by making more discoveries in regions where signals appear to be more common. Our main theoretical result proves that SABHA controls FDR at a level that is at most slightly higher than the target FDR level, as long as the adaptive weights are constrained sufficiently so as not to overfit too much to the data-interestingly, the excess FDR can be related to the Rademacher complexity or Gaussian width of the class from which we choose our data-adaptive weights. We apply this general framework to various structured settings, including ordered, grouped, and low total variation structures, and get the bounds on FDR for each specific setting. We also examine the empirical performance of SABHA on fMRI activity data and on gene/drug response data, as well as on simulated data.

研究の動機と目的

標準的な複数仮説検定手順が、信号および帰無仮説の位置に既知の構造的パターンを無視してすべての仮説を交換可能に扱うという限界に対処すること。
グループ化、順序付け、空間的クラスタリングなどの事前構造的知識をFDR制御手順に統合する一般化されたフレームワークを構築すること。
p値が従属している場合でも、ラダマッチャー複雑度などの複雑度測度による過学習の制限を通じて、データに適応する重みを用いた有限標本におけるFDR制御の保証を提供すること。
fMRIや遺伝子発現データを含む多様な構造的設定において、実データおよびシミュレートデータを用いて、本手法の経験的有効性を示すこと。

提案手法

SABHAは、事前構造的仮定（例：グループ化、順序付け、低変動）に基づくデータに適応する重みを用いてp値を再重み付けし、信号密度が高い領域での感度を高める。
本手法は、重み付きp値を用いて再調整された棄却基準を用いる変更版Benjamini-Hochberg手順を採用し、各領域における期待される信号頻度を反映するように重みを設定する。
過学習を防ぐために、重みクラスをラダマッチャー複雑度やガウス幅などの複雑度測度で制約することで、FDR制御を保証する。
プラグイン推定器を用いて各構造的単位（例：グループ、区間）内の帰無仮説の割合を推定し、これにより適応的重み付け方式を形成する。
独立または正の依存性を示すp値（PRDS条件下）に対して適用可能であり、実用的有用性を拡張する。
主な要素として、過学習リスクの理論的境界を用いて、信号検出力とFDR制御のバランスを取るデータに適応する重み選択メカニズムを用いる。

実験結果

リサーチクエスチョン

RQ1信号および帰無仮説の位置に既知の構造的パターンを組み込むことで、複数仮説検定手順の検出力を向上させることは可能か？
RQ2FDR制御を損なわずに、構造的情報に基づいてp値に適応的重みを割り当てる方法は何か？
RQ3構造的制約下でデータに適応する重みを用いる場合、FDR制御についてどのような理論的保証を提供できるか？
RQ4SABHAは、BHおよびStorey-BHといった既存手法と比較して、構造的データにおいて発見率およびFDR制御の点でどのように異なるか？
RQ5fMRIや遺伝子-薬物反応研究などの実世界の設定において、SABHAは信号発見力の向上をもたらすか？

主な発見

fMRIデータにおいて、SABHAは1,234件の発見を達成し、BH（931件）およびStorey-BH（1,217件）を著しく上回った。その増加は、信号密度が高と推定されるROIに集中していた。
SABHAにおける各ROIごとの帰無仮説の推定割合（bq）は、発見率の向上が生じた場所をよく予測しており、特にbqが低いROIで最大の改善が見られた。
遺伝子／薬物反応データにおいて、SABHAは同じFDR目標（α = 0.2）下でBHおよびStorey-BHよりも高い発見率を達成した。特に信号がクラスタリングされている場合に顕著であった。
理論的解析により、SABHAが導入する過剰FDRは、重みクラスのラダマッチャー複雑度によって有界に保たれ、適応的重みを用いていてもFDR制御が保証されることが示された。
シミュレーションでは、SABHAは名目上のαよりわずかに高い水準でFDR制御を維持しながら、構造的信号パターン下で標準的なBHおよびStorey-BHよりも高い検出力を達成した。
順序付け、グループ化、低全変動といった異なる構造においても、SABHAは安定した性能を示し、多様なデータパターンへの汎用性と適応性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。