[论文解读] A More Powerful Two-Sample Test in High Dimensions using Random Projection
本文通过将随机投影与Hotelling $T^2$统计量相结合,提出了一种针对高维多元正态数据的新型两样本检验方法。通过在应用Hotelling检验前将高维数据投影到低维子空间,该方法在 $p/n \to \infty$ 或 $p/n \to c \in (0,\infty)$ 的情况下,相较于最先进的竞争方法(如Bai-Saranadasa、Chen-Qin和Srivastava-Du的方法)实现了更高的渐近功效,并提供了精确的水平-$\alpha$临界值。
We consider the hypothesis testing problem of detecting a shift between the means of two multivariate normal distributions in the high-dimensional setting, allowing for the data dimension p to exceed the sample size n. Specifically, we propose a new test statistic for the two-sample test of means that integrates a random projection with the classical Hotelling T^2 statistic. Working under a high-dimensional framework with (p,n) tending to infinity, we first derive an asymptotic power function for our test, and then provide sufficient conditions for it to achieve greater power than other state-of-the-art tests. Using ROC curves generated from synthetic data, we demonstrate superior performance against competing tests in the parameter regimes anticipated by our theoretical results. Lastly, we illustrate an advantage of our procedure's false positive rate with comparisons on high-dimensional gene expression data involving the discrimination of different types of cancer.
研究动机与目标
- 解决经典Hotelling $T^2$ 在 $p > n$ 或 $p \approx n$ 的高维设置下表现不佳的问题。
- 克服当 $p > n$ 时样本协方差矩阵 $\widehat{\Sigma}$ 的奇异化问题,该问题使标准Hotelling检验失效。
- 在高维渐近条件下,开发一种渐近功效高于现有方法(如Bai-Saranadasa、Chen-Qin和Srivastava-Du)的检验方法。
- 提供精确的水平-$\alpha$临界值,而不同于依赖近似的竞争方法。
- 在合成数据和真实高维基因表达数据上展示优越的性能,用于癌症判别。
提出的方法
- 应用随机投影矩阵 $P_k$ 将 $p$ 维样本投影到维度为 $k \leq \min\{n, p\}$ 的子空间中。
- 在投影后的 $k$ 维空间中,利用投影后的样本均值和投影协方差估计器计算Hotelling $T^2$ 检验统计量。
- 在高维渐近情形 $(p,n) \to \infty$ 且 $p/n \to a \in (0,\infty)$ 或 $p/n \to \infty$ 下,推导投影检验的渐近功效函数。
- 利用浓度不等式和随机矩阵理论,对比例 $\Delta_k^2 / \|\delta\|_2^2$ 进行界控,其中 $\Delta_k^2$ 为投影后的效应大小。
- 证明在 $p/n$ 和 $\Sigma$ 的特征结构满足特定条件时,该检验的渐近功效高于现有方法。
- 通过利用原假设下投影 $T^2$ 的分布特性,确保精确的水平-$\alpha$显著性水平控制。
实验结果
研究问题
- RQ1随机投影是否能提升在 $p > n$ 的高维设置下两样本Hotelling $T^2$ 检验的功效?
- RQ2在相同的高维渐近框架下,所提方法是否相较于Bai-Saranadasa、Chen-Qin和Srivastava-Du的检验具有更高的渐近功效?
- RQ3所提检验是否能保持精确的水平-$\alpha$误差控制,而不同于依赖近似的竞争方法?
- RQ4当 $p/n \to \infty$ 与 $p/n \to c \in (0,\infty)$ 时,该检验的性能表现有何差异?
- RQ5在高维情形下,投影后效应大小与原始效应大小之间的理论关系是什么?
主要发现
- 在 $p/n \to a \in (0,\infty)$ 或 $p/n \to \infty$ 的条件下,且在 $\Sigma$ 的特征值满足充分条件时,所提检验的渐近功效高于Bai-Saranadasa、Chen-Qin和Srivastava-Du的检验方法。
- 在联合极限 $(p,n) \to \infty$ 下,推导出所提检验的渐近功效函数,表明其在 $p/n \to 1$ 时仍能保持非平凡的功效。
- 在某些参数区域内,与现有方法相比,该检验的渐近相对效率大于1,表明其功效更优。
- 在适当的缩放下,当 $n \to \infty$ 时,比例 $\Delta_k^2 / \|\delta\|_2^2$ 以高概率收敛于一个介于 $\frac{(1-\sqrt{a})^2}{\operatorname{tr}(\Sigma)/k}$ 和 $\frac{(1+\sqrt{a})^2}{\operatorname{tr}(\Sigma)/k}$ 之间的极限值。
- 在合成数据上的ROC曲线比较结果证实,该方法在理论上预测的参数区域内优于竞争方法。
- 在高维基因表达数据上,所提检验的假阳性率低于现有方法,表现出实际的稳健性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。