Skip to main content
QUICK REVIEW

[论文解读] Hypothesis Testing for Sparse Binary Regression

Rajarshi Mukherjee, Natesh S. Pillai|arXiv (Cornell University)|Aug 4, 2013
Genetic Associations and Epidemiology参考文献 11被引用 5
一句话总结

本文在稀疏性约束下,建立了高维稀疏二值回归的检测边界,引入了决定检验效能的设计矩阵稀疏性指数。研究发现,过度的设计稀疏性会使任何检验在渐近意义上完全失效,无论信号强度如何;并提出了一种针对稀疏替代假设的速率最优扩展高阶批评检验,其结果通过模拟实验得到验证。

ABSTRACT

In this paper, we study the detection boundary for minimax hypothesis testing in the context of high-dimensional, sparse binary regression models. Motivated by genetic sequencing association studies for rare variant effects, we investigate the complexity of the hypothesis testing problem when the design matrix is sparse. We observe a new phenomenon in the behavior of detection boundary which does not occur in the case of Gaussian linear regression. We derive the detection boundary as a function of two components: a design matrix sparsity index and signal strength, each of which is a function of the sparsity of the alternative. For any alternative, if the design matrix sparsity index is too high, any test is asymptotically powerless irrespective of the magnitude of signal strength. For binary design matrices with the sparsity index that is not too high, our results are parallel to those in the Gaussian case. In this context, we derive detection boundaries for both dense and sparse regimes. For the dense regime, we show that the generalized likelihood ratio is rate optimal; for the sparse regime, we propose an extended Higher Criticism Test and show it is rate optimal and sharp. We illustrate the finite sample properties of the theoretical results using simulation studies.

研究动机与目标

  • 确定高维稀疏二值回归模型中极小极大假设检验的检测边界。
  • 研究设计矩阵稀疏性对稀疏回归设定下统计检验效能的影响。
  • 将现有从高斯分布到二值回归的检测边界结果进行扩展,尤其关注遗传测序中常见的罕见变异效应。
  • 为二值回归中的稀疏替代假设开发一种速率最优检验,填补非高斯高维检验中的空白。
  • 通过有限样本模拟研究验证理论发现。

提出的方法

  • 引入设计矩阵稀疏性指数作为控制检验效能的关键参数,其定义基于协变量的稀疏性。
  • 推导检测边界作为稀疏性指数与信号强度的函数,表明高稀疏性指数会使检验无论信号大小均完全失效。
  • 在密集情形下,证明广义似然比检验达到最优速率。
  • 在稀疏情形下,提出一种结合稀疏感知统计量的扩展高阶批评检验,并证明其为速率最优且精确。
  • 通过高维尺度下的渐近分析,刻画可检测与不可检测替代之间的边界。
  • 通过模拟研究验证理论结果,评估所提检验的有限样本性能。

实验结果

研究问题

  • RQ1高维稀疏二值回归模型中极小极大假设检验的检测边界是什么?
  • RQ2设计矩阵的稀疏性如何影响任何统计检验的效能,无论信号强度如何?
  • RQ3能否为二值回归中的稀疏替代假设构造一种速率最优检验,其与现有方法相比表现如何?
  • RQ4二值回归中的检测边界是否表现出高斯线性模型中不存在的新现象?
  • RQ5理论检测边界在有限样本设定下的表现如何?

主要发现

  • 过度的设计矩阵稀疏性会使任何检验在渐近意义上完全失效,无论信号强度如何,原因在于协变量中信息不足。
  • 对于中等稀疏性设计矩阵,检测边界与高斯情形下的结果一致,从而可实现相近的检测阈值。
  • 在密集情形下,广义似然比检验达到最小极大检测速率,证实其最优性。
  • 在稀疏情形下,所提出的扩展高阶批评检验为速率最优且精确,优于标准检验在稀疏条件下的表现。
  • 模拟研究证实,理论检测边界能准确预测有限样本下检验的实际性能。
  • 检测边界被明确表征为设计矩阵稀疏性指数与替代信号强度的函数。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。