QUICK REVIEW

[論文レビュー] Combining p-values via averaging

Vladimir Vovk, Ruodu Wang|arXiv (Cornell University)|Dec 20, 2012

Statistical Methods in Clinical Trials参考文献 35被引用数 23

ひとこと要約

本稿では、p値を平均化する一般化された枠組みを提案し、Fisher や Bonferroni の古典的手法を一般化平均（算術平均、幾何平均、調和平均）を用いて拡張する。主な貢献は、p値の調和平均が $ olimits\ln K$ でスケーリング可能（漸近的に）であることを示し、任意の依存構造下でも有効かつ保守的なp値を提供することであり、依存性下でも高い検出力を持つ多重仮説検定手順の改善に寄与する。

ABSTRACT

This paper proposes general methods for the problem of multiple testing of a single hypothesis, with a standard goal of combining a number of p-values without making any assumptions about their dependence structure. An old result by Rüschendorf and, independently, Meng implies that the p-values can be combined by scaling up their arithmetic mean by a factor of 2 (and no smaller factor is sufficient in general). A similar result about the geometric mean (Mattner) replaces 2 by $e$. Based on more recent developments in mathematical finance, specifically, robust risk aggregation techniques, we extend these results to generalized means; in particular, we show that $K$ p-values can be combined by scaling up their harmonic mean by a factor of $\ln K$ (asymptotically as $K o\infty$). This leads to a generalized version of the Bonferroni-Holm procedure. We also explore methods using weighted averages of p-values. Finally, we discuss the efficiency of various methods of combining p-values and how to choose a suitable method in light of data and prior information.

研究の動機と目的

独立性の仮定を一切行わず、複数のp値を1つの有効なp値に統合する一般的で仮定のない手法の開発。
一般化平均を用いたp値の平均化に関する古典的結果（例えば、Rüschendorf や Mattner）を、一般化平均とロバストリスク集約技術を用いて拡張すること。
一般化平均に基づくスケーラブルな統合関数を導入することで、多重仮説検定手順の検出力と効率性を向上させること。
データの特性や事前情報に基づいて最適な統合手法を選択するための原則的アプローチを提供すること。
一般化平均に基づく統合関数を用いて、Bonferroni–Holm 手順を一般化し、依存性下でも性能を向上させること。

提案手法

一般化平均 $M_{r,K}(p_1,\dots,p_K) = \left(\frac{1}{K}\sum_{i=1}^K p_i^r\right)^{1/r}$ を用い、$r \in [-\infty, \infty]$ に対して、算術平均（$r=1$）、幾何平均（$r \to 0$）、調和平均（$r=-1$）を含む。
任意の依存構造下でも有効な統合関数（つまり、保守的なp値を生成する）であることを保証するためのスケーリング係数 $a_{r,K}$ を導出する。
ロバストリスク集約の結果を応用し、正確なスケーリング係数を導出し、$K \to \infty$ のとき $a_{r,K} \to \ln K$ となることを示す（調和平均の場合）。
側面情報や事前知識を用いた重み付き平均化を提案し、異質な検定状況下での効率性を向上させる。
Bonferroni と幾何平均を組み合わせた複合手法（BG法）を導入し、シミュレーションで個別の手法を上回ることを確認。
相関のある正規分布の検定統計量を想定したシミュレーションスタディを実施し、相関係数（$\rho = 0.1, 0.5, 0.9$）とサンプルサイズ（$K=50, 400$）の異なる条件下での性能を評価。

実験結果

リサーチクエスチョン

RQ1任意の依存構造下で、$a_{r,K} \cdot M_{r,K}$ が有効なp値（保守的p値）を生成する最小のスケーリング係数 $a_{r,K}$ は何か？
RQ2依存性下において、一般化平均に基づくp値の組み合わせ法は、古典的手法（例：Bonferroni や Fisher）と比較してどのように性能を発揮するか？
RQ3複数の手法（例：Bonferroni と幾何平均）を組み合わせた複合統合関数は、個別の手法を上回る検出力を達成できるか？
RQ4異なる依存構造下で統計的検出力を最大化するための一般化平均のパラメータ $r$ の最適選択は何か？
RQ5事前情報や検定の質を重み付き平均化を用いてp値の統合に統合する方法は何か？

主な発見

K個のp値の調和平均は、$\ln K$ でスケーリング可能（$K \to \infty$ の漸近的条件下）であり、これは有効かつ保守的なp値を提供し、Bonferroni 法を上回る。
幾何平均の場合は、一般に $e$ のスケーリング係数が十分かつ必要であることが確認され、Mattner の結果を裏付けた。
算術平均の場合は、有効なp値を得るためには2倍のスケーリングが必要であり、これはRüschendorf や Meng によって以前に確立された結果である。
複合Bonferroni-幾何平均法（$F_{K}^{\mathrm{BG}}$）は、常に基本的手法を上回り、任意の $r$ に対して一般化平均法に支配されない。
強い依存性（$\rho = 0.9$）下では、幾何平均および算術平均法が、Bonferroni 法や $r < -1$ の手法よりも優れている。$K$ が増加するにつれて、$r < -1$ の手法は性能を著しく劣化させる。
パラメータ $r$ の選択は検出力に大きな影響を与える：$r \approx -1$ ではスケーリング係数が発散するため不安定となり、$r \in [-5, 0]$ の範囲ではシミュレーション全体で安定かつ効果的な性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。