QUICK REVIEW

[論文レビュー] Towards "simultaneous selective inference": post-hoc bounds on the false discovery proportion

Eugene Katsevich, Aaditya Ramdas|arXiv (Cornell University)|Mar 19, 2018

Machine Learning and Algorithms被引用数 5

ひとこと要約

本稿では、既存のFDR手順の全棄却経路にわたる偽発見率（FDP）の均一でデータ依存の境界を導入し、高信頼性のFDP制御を伴う後向きに棄却集合を選択可能にする。多くのFDR手法—特にBenjamini-Hochberg—について、FDPが高確率で目標とするFDR水準$q$の小さな定数倍（約2に近い）で一様に上界を示すことを証明し、同時に選択的推論を可能にする。

ABSTRACT

The false discovery rate (FDR) has become a popular Type-I error criterion for multiple testing, but it is not without its flaws. Indeed, (a) controlling the mean of the false discovery proportion (FDP) does not preclude large FDP variability, and (b) committing to an error level $q$ before observing the data limits its use in exploratory data analysis. We take a step towards addressing both of the above drawbacks by proving uniform FDP bounds for a variety of existing FDR procedures. In particular, many such procedures proceed by examining a $ extit{path}$ of potential rejection sets $\varnothing = \mathcal R_0 \subseteq \mathcal R_1 \subseteq \cdots \subseteq \mathcal R_n \subseteq [n]$, assigning an estimate $\widehat{ ext{FDP}}(\mathcal R_k)$ to each one, and choosing the final rejection set $\mathcal R_{k^*}$ via $k^* = \max\{k: \widehat{ ext{FDP}}(\mathcal R_k) \leq q\}$. We prove that for a wide variety of such procedures (including Benjamini-Hochberg), under independent p-values, $\widehat{ ext{FDP}}$ bounds the FDP to within a small explicit constant factor $c_{ ext{alg}}(\alpha)$, uniformly across the entire path, with probability $1-\alpha$. This constant is close to 2 for several procedures at the 95% confidence level. These bounds imply that existing FDR procedures also have FDP bounded with high probability by a small constant multiple of the target FDR level $q$. Our bounds also open up a middle ground between fully simultaneous inference and fully selective inference. They allow the scientist to $ extit{spot}$ one or more suitable rejection sets (Select Post-hoc On the algorithm's Trajectory) by picking data-dependent sizes or error-levels, after examining the entire path of $\widehat{ ext{FDP}}(\mathcal R_k)$ and the uniform upper band on FDP.

研究の動機と目的

FDR制御の限界を解決する。FDR制御は偽発見率の平均値しか制御せず、その変動性には制約を加えない。
データの確認前に誤差水準$q$を事前に指定するという柔軟性の欠如を克服する。これにより、探索的データ解析が困難になる。
棄却集合の増加する経路全体にわたって、すべての棄却集合に対して一様で高確率のFDP境界を確立し、全経路を観測した後のデータ駆動型の棄却集合選択を可能にする。
完全な同時推論と完全な選択的推論の間の妥協点を提供する。後向きに棄却集合を選択可能であり、FDP制御が保証される。

提案手法

FDR手順を、$\mathcal{R}_0 \subseteq \mathcal{R}_1 \subseteq \cdots \subseteq \mathcal{R}_n$ という入れ子になった棄却集合の経路として形式化する。各集合はp値のしきい値に対応する。
既存のFDR推定技術を用いて、各棄却集合$\mathcal{R}_k$に対して推定FDP $\widehat{\text{FDP}}(\mathcal{R}_k)$ を割り当てる。
独立なp値の下で、真のFDPがすべての$k$に対して、確率$1 - \alpha$で $c_{\text{alg}}(\alpha) \cdot \widehat{\text{FDP}}(\mathcal{R}_k)$ で一様に上界を示すことを証明する。
いくつかの標準的FDR手順（例：Benjamini-Hochberg）について、95%信頼水準で$c_{\text{alg}}(\alpha)$が約2に近く、したがって真のFDPが高確率で推定FDPの約2倍で抑えられることを確立する。
これらの均一な境界を活用し、FDPが$q$の制御された倍率を超えないように、観測された$\widehat{\text{FDP}}(\mathcal{R}_k)$の経路に基づいて*後向き*に棄却集合を選択可能にする。
科学者が経路から適応的に最終的な棄却集合を選択できる、新たな推論形態—「同時的選択的推論」—を可能にする。この場合、高確率でFDP制御が保証される。

実験結果

リサーチクエスチョン

RQ1FDR手順の経路におけるすべての棄却集合に、均一で高確率の偽発見率（FDP）の境界を提供できるか？
RQ2Benjamini-Hochbergのような標準的FDR手順を用いる場合、FDPの変動性はどの程度制御されるか？
RQ3事前に誤差水準$q$を指定せずに、データ駆動型の後向きな棄却集合選択を可能にしつつ、FDP制御を維持できるか？
RQ4真のFDPが確率$1 - \alpha$で $c_{\text{alg}}(\alpha) \cdot \widehat{\text{FDP}}(\mathcal{R}_k)$ で抑えられるような、最もタイトな定数係数$c_{\text{alg}}(\alpha)$は何か？
RQ5FDR経路に基づく手法を用いて、完全な同時推論と完全な選択的推論の間の溝を埋めることは可能か？

主な発見

Benjamini-Hochbergを含む広範なFDR手順のクラスにおいて、真のFDPはすべての$k$に対して確率$1 - \alpha$で $c_{\text{alg}}(\alpha) \cdot \widehat{\text{FDP}}(\mathcal{R}_k)$ で一様に上界を示す。
95%信頼水準で定数$c_{\text{alg}}(\alpha)$は約2に近く、したがってFDPは高確率で推定FDPの約2倍で抑えられる。
これらの境界は、棄却集合の経路全体にわたって一様に成り立つため、経路の任意の点で高信頼性の推論が可能である。
この手法により、データ依存の基準（例：サイズや誤差水準）に基づいて、後向きに棄却集合を選択可能であり、FDP制御が均一境界によって保証される。
このアプローチにより、科学者が全経路を観測した後、複数の候補となる棄却集合を検証できる、新たな推論パラダイム—「同時的選択的推論」—が可能になる。
結果として、従来のFDR手順は平均FDPを制御するだけでなく、高確率でその変動性も制御できることを示しており、標準的FDRの主要な限界が解消された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。