Skip to main content
QUICK REVIEW

[论文解读] High-Dimensional Bayesian Regularised Regression with the BayesReg Package

Enes Makalic, Daniel F. Schmidt|arXiv (Cornell University)|Nov 21, 2016
Statistical Methods and Inference被引用 37
一句话总结

该论文介绍了 bayesreg,一个免费、开源的 MATLAB 和 R 工具箱,用于使用收缩先验(如套索、 horseshoe 和 horseshoe+)进行高维贝叶斯正则化回归。该工具箱通过潜在变量表示实现高效的吉布斯采样,相较于 rstanarm 和 monomvn 等现有工具,性能最高可提升 40 倍,尤其在 $ p \gg n $ 的高维场景下表现优异。该方法支持具有高斯或重尾误差模型的线性回归与逻辑回归。

ABSTRACT

Bayesian penalized regression techniques, such as the Bayesian lasso and the Bayesian horseshoe estimator, have recently received a significant amount of attention in the statistics literature. However, software implementing state-of-the-art Bayesian penalized regression, outside of general purpose Markov chain Monte Carlo platforms such as STAN, is relatively rare. This paper introduces bayesreg, a new toolbox for fitting Bayesian penalized regression models with continuous shrinkage prior densities. The toolbox features Bayesian linear regression with Gaussian or heavy-tailed error models and Bayesian logistic regression with ridge, lasso, horseshoe and horseshoe$+$ estimators. The toolbox is free, open-source and available for use with the MATLAB and R numerical platforms.

研究动机与目标

  • 解决在通用 MCMC 平台(如 Stan)之外,高效、专用的贝叶斯惩罚回归软件稀缺的问题。
  • 为高维回归($ p \gg n $)提供最先进的收缩先验(如 horseshoe、套索)的计算高效实现。
  • 在 R 和 MATLAB 中实现支持灵活误差模型(高斯、重尾)和多种收缩先验的贝叶斯线性与逻辑回归。
  • 克服现有工具的局限性,如收敛缓慢、数值不稳定性或适用性受限(如要求满秩设计矩阵)。

提出的方法

  • 采用具有正态尺度混合先验的层次化贝叶斯模型对回归系数进行建模,通过局部和全局收缩参数实现稀疏性。
  • 利用潜在变量表示重新参数化 horseshoe 及其他收缩先验,通过条件后验更新实现高效的吉布斯采样。
  • 采用带数据增强的吉布斯采样,联合抽样回归系数、方差分量和超参数,确保计算稳定性。
  • 通过潜在变量增强,将相同收缩先验应用于具有高斯或学生 t 误差的线性回归,以及逻辑回归。
  • 实现高效的采样算法,避免直接矩阵求逆,从而实现对 $ p \gg n $ 场景的可扩展性。
  • 提供模块化、平台无关的 R 和 MATLAB 代码,并配备针对高维推断的优化数值例程。

实验结果

研究问题

  • RQ1能否开发一个专用且高效的软件工具箱,用于贝叶斯惩罚回归,使其在高维场景下超越通用 MCMC 平台的性能?
  • RQ2bayesreg 实现的计算性能和收敛速度与 rstanarm 和 monomvn 等现有工具相比如何?
  • RQ3收缩先验的潜在变量表示在多大程度上能提升高维回归中的采样效率和数值稳定性?
  • RQ4该工具箱能否在高斯和重尾误差模型下,同时支持多种收缩先验(如 horseshoe、套索、horseshoe+)和线性与逻辑回归?
  • RQ5现有采样方法(如切片采样、NUTS)在高维贝叶斯收缩回归中的实际局限性是什么?如何加以解决?

主要发现

  • 当在 $ n = 1,000, p = 1,000 $ 条件下从 horseshoe 后验分布采样时,bayesreg 工具箱的性能最高可达 monomvn 包的 40 倍。
  • bayesreg 的 MATLAB 版本在约 0.15 秒内即可完成 2,000 个后验样本的贝叶斯 horseshoe 回归抽样,而 rstanarm 需要约 40 秒。
  • bayesreg 中的吉布斯采样方法避免了直接矩阵求逆带来的数值不稳定性,使其适用于 $ p \gg n $ 场景。
  • 该工具箱支持比现有工具更广泛的模型,包括贝叶斯逻辑回归和重尾误差模型,而这些在许多现有实现中尚不存在。
  • 潜在变量重参数化使得对分组变量模型(如基因通路)的扩展变得直接简便,而椭圆切片采样则要求设计矩阵为满秩。
  • 该实现表现出稳健的后验收敛性,避免了在 Stan 中使用 NUTS 对 horseshoe 和 horseshoe+ 先验时常见的发散转移问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。