Skip to main content
QUICK REVIEW

[论文解读] Scalable Bayesian Variable Selection Using Nonlocal Prior Densities in Ultrahigh-Dimensional Settings

Minsuk Shin, Anirban Bhattacharya|arXiv (Cornell University)|Jul 25, 2015
Statistical Methods and Inference参考文献 45被引用 27
一句话总结

本文提出在超高维设定(p ≫ n)下使用非局部先验密度的可扩展贝叶斯变量选择方法,当超参数 τ 的增长速度超过 log p 时,证明了模型选择的一致性。该方法在性能上优于 Lasso 和 SCAD 等惩罚似然方法,具有更低的假发现率和更快的后验集中速度,通过精确率-召回率曲线和一种新型 S5 算法实现高效计算,得到验证。

ABSTRACT

Bayesian model selection procedures based on nonlocal alternative prior densities are extended to ultrahigh dimensional settings and compared to other variable selection procedures using precision-recall curves. Variable selection procedures included in these comparisons include methods based on $g$-priors, reciprocal lasso, adaptive lasso, scad, and minimax concave penalty criteria. The use of precision-recall curves eliminates the sensitivity of our conclusions to the choice of tuning parameters. We find that Bayesian variable selection procedures based on nonlocal priors are competitive to all other procedures in a range of simulation scenarios, and we subsequently explain this favorable performance through a theoretical examination of their consistency properties. When certain regularity conditions apply, we demonstrate that the nonlocal procedures are consistent for linear models even when the number of covariates $p$ increases sub-exponentially with the sample size $n$. A model selection procedure based on Zellner's $g$-prior is also found to be competitive with penalized likelihood methods in identifying the true model, but the posterior distribution on the model space induced by this method is much more dispersed than the posterior distribution induced on the model space by the nonlocal prior methods. We investigate the asymptotic form of the marginal likelihood based on the nonlocal priors and show that it attains a unique term that cannot be derived from the other Bayesian model selection procedures. We also propose a scalable and efficient algorithm called Simplified Shotgun Stochastic Search with Screening (S5) to explore the enormous model space, and we show that S5 dramatically reduces the computing time without losing the capacity to search the interesting region in the model space. The S5 algorithm is available in an \verb R ~package {\it BayesS5} on exttt{CRAN}.

研究动机与目标

  • 为解决在超高维设定(p ≫ n)下对非局部先验的理论与实证理解不足的问题,其中 p 为预测变量数量,n 为样本大小。
  • 比较非局部先验与惩罚似然方法(如 Lasso、SCAD、自适应 Lasso、MCP、rLasso)在模型选择准确性和假发现率控制方面的表现。
  • 建立非局部先验在高维情形下实现强模型选择一致性的理论条件。
  • 开发并实现一种高效、可扩展的模型搜索算法(S5),以加速高维模型空间中的后验探索。
  • 为超参数选择(如 τ)提供实际指导,并比较贝叶斯方法与惩罚似然方法在计算成本和不确定性量化方面的优势。

提出的方法

  • 在回归系数上使用产品指数矩(peMoM)和产品逆矩(piMoM)非局部先验密度,通过调节参数 τ 控制先验对零的偏离程度。
  • 采用拉普拉斯近似计算每种模型的边际似然,从而在非局部先验的归一化常数不可解析计算的情况下,仍能高效计算后验模型概率。
  • 提出 S5 算法,一种结合 SSS(带筛选的随机搜索)与温度控制及筛选机制的高效搜索过程,以加速模型空间的探索。
  • 以精确率-召回率曲线为主要评估指标,用于方法比较,因其在超高维设定下真实信号稀疏,相比 ROC 曲线更具优势。
  • 推导出强模型选择一致性的渐近条件,表明当 τ 的增长速度超过 log p 时,即使 p 随 n 亚指数增长,非局部先验仍能实现一致性。
  • 通过证明 rLasso 的惩罚函数等价于非局部先验的负对数核,建立了 rLasso 与非局部先验之间的联系。

实验结果

研究问题

  • RQ1非局部先验是否能在超高维设定(p ≫ n)下实现强模型选择一致性?其超参数 τ 需满足何种条件?
  • RQ2基于非局部先验的贝叶斯变量选择方法与惩罚似然方法(如 Lasso、SCAD、rLasso)相比,在假发现率和统计功效方面表现如何?
  • RQ3随着预测变量数量 p 增加,最优超参数(非局部先验的 τ,g-先验的 g)的行为如何?
  • RQ4能否开发一种高效且可扩展的算法(S5),在不损失准确性的前提下加速后验模型搜索?
  • RQ5在高维设定下,与惩罚似然方法相比,使用非局部先验的贝叶斯方法在计算与推断方面有何优势?

主要发现

  • 当超参数 τ 的增长速度超过 log p 时,非局部先验在 p ≫ n 设定下可实现强模型选择一致性,与理论和实证结果一致。
  • 非局部先验的最优超参数 τ 随 p 增加而增长极慢(当 p 从 1000 增至 20,000 时,τ 从 1.97 增至 3.60),而 g-先验的最优 g 值则急剧上升(从 7.83×10⁸ 增至 4.29×10¹³)。
  • 使用非局部先验的贝叶斯方法在保持相当功效的同时,假发现率显著低于惩罚似然方法,精确率-召回率曲线结果验证了这一点。
  • 基于非局部先验的后验分布比基于 g-先验的后验分布更紧密地集中在最大后验概率(MAP)模型周围,表明其后验集中速度更快。
  • S5 算法成功加速了模型搜索,在显著更短时间内找到与 SSS 相同的 MAP 模型,且在高维设定下具备可扩展性。
  • 贝叶斯框架可通过模型平均实现后验模型概率和不确定性量化,相较惩罚似然方法的点估计具有显著优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。