[论文解读] Continuous shrinkage prior revisited: a collapsing behavior and remedy
本文识别出连续收缩先验中的坍塌行为——当全局尺度被低估时,后验均值会趋近于零,尤其在存在大量真实信号时更为明显。为解决此问题,提出一种全局-局部-尾部收缩先验,可自适应学习尾部指数,从而在中等规模信号数量的高维基因组设定下提升估计精度。
Modern genomic studies are increasingly focused on identifying more and more genes clinically associated with a health response. Commonly used Bayesian shrinkage priors are designed primarily to detect only a handful of signals when the dimension of the predictors is very high. In this article, we investigate the performance of a popular continuous shrinkage prior in the presence of relatively large number of true signals. We draw attention to an undesirable phenomenon; the posterior mean is rendered very close to a null vector, caused by a sharp underestimation of the global-scale parameter. The phenomenon is triggered by the absence of a tail-index controlling mechanism in the Bayesian shrinkage priors. We provide a remedy by developing a global-local-tail shrinkage prior which can automatically learn the tail-index and can provide accurate inference even in the presence of moderately large number of signals. The collapsing behavior of the Horseshoe with its remedy is exemplified in numerical examples and in two gene expression datasets.
研究动机与目标
- 研究当真实信号数量中等偏大时,连续收缩先验的表现,这与它们通常为稀疏信号检测而设计的初衷相悖。
- 识别现有先验中后验坍塌的根本原因,特别是全局尺度参数的急剧低估。
- 解决标准贝叶斯收缩先验中缺乏尾部指数控制机制的问题,该问题导致在密集信号情形下推断性能差。
- 开发一种新先验,可自动学习尾部指数,并在存在大量信号时仍保持准确的后验推断。
- 通过数值例子和真实基因表达数据集验证所提方法的有效性。
提出的方法
- 提出一种全局-局部-尾部收缩先验,通过引入灵活的尾部指数参数来控制重尾行为,扩展标准全局-局部先验。
- 引入层次化先验结构,使尾部指数可从数据中估计,从而实现对真实信号集合稀疏程度的自动适应。
- 利用尺度混合表示将先验表达为层次化模型,支持通过吉布斯采样或类似MCMC方法实现高效的后验计算。
- 在尾部指数上采用非信息性或弱信息性先验,以实现数据驱动的学习,同时避免强假设。
- 设计该先验,使其保留霍施尔(horseshoe)的收缩特性,但通过稳定全局尺度估计避免后验坍塌。
- 在贝叶斯框架中实现该模型,并在不同信号稀疏程度下评估后验均值的表现。
实验结果
研究问题
- RQ1为何标准连续收缩先验在高维设定下无法检测中等数量的真实信号?
- RQ2什么机制导致现有全局-局部先验中后验均值向零坍塌?
- RQ3缺乏尾部指数控制机制如何导致全局尺度参数的低估?
- RQ4能否设计一种可自适应学习尾部指数的先验,以在密集信号情形下维持准确的收缩?
- RQ5在真实基因组数据中,所提出的全局-局部-尾部先验在后验均值准确性和信号检测方面与现有先验相比表现如何?
主要发现
- 当真实信号数量增加(即使仅中等程度增加)时,标准连续收缩先验的后验均值会向零坍塌,其根本原因是全局尺度参数被严重低估。
- 这种坍塌行为直接源于现有先验中缺乏尾部指数控制机制,导致非零效应被过度收缩。
- 所提出的全局-局部-尾部收缩先验通过从数据中自适应学习尾部指数,成功缓解了后验坍塌。
- 数值例子表明,新先验在不同信号稀疏程度下均能保持准确的后验均值估计。
- 在两个真实基因表达数据集中,所提方法在检测真实信号和估计效应大小方面优于标准霍施尔先验及相关先验。
- 该方法对中等程度的信号密度具有鲁棒性,为现代基因组学研究中临床相关基因数量不断增加的场景提供了实用解决方案。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。