Skip to main content
QUICK REVIEW

[论文解读] Lognormal and Gamma Mixed Negative Binomial Regression

Mingyuan Zhou, Lingbo Li|arXiv (Cornell University)|Jun 27, 2012
Advanced Statistical Methods and Models参考文献 26被引用 75
一句话总结

本文提出了一种新颖的贝叶斯负二项回归模型,通过使用对数正态分布和伽马分布混合来建模聚集参数和概率参数,结合多级伽马变量和复合泊松表示法进行数据增广,实现了高效的闭式吉布斯采样和变分推断。该方法支持灵活的先验建模,包括对系数的稀疏性诱导先验,并为过度分散的计数数据提供了可扩展、可推广的推断方法。

ABSTRACT

In regression analysis of counts, a lack of simple and efficient algorithms for posterior computation has made Bayesian approaches appear unattractive and thus underdeveloped. We propose a lognormal and gamma mixed negative binomial (NB) regression model for counts, and present efficient closed-form Bayesian inference; unlike conventional Poisson models, the proposed approach has two free parameters to include two different kinds of random effects, and allows the incorporation of prior information, such as sparsity in the regression coefficients. By placing a gamma distribution prior on the NB dispersion parameter r, and connecting a lognormal distribution prior with the logit of the NB probability parameter p, efficient Gibbs sampling and variational Bayes inference are both developed. The closed-form updates are obtained by exploiting conditional conjugacy via both a compound Poisson representation and a Polya-Gamma distribution based data augmentation approach. The proposed Bayesian inference can be implemented routinely, while being easily generalizable to more complex settings involving multivariate dependence structures. The algorithms are illustrated using real examples.

研究动机与目标

  • 为解决计数数据建模中负二项回归缺乏高效贝叶斯推断算法的问题。
  • 通过引入对数正态分布和伽马分布混合的两个独立随机效应,实现对过度分散计数数据的灵活建模。
  • 开发闭式后验计算方法,支持常规应用并可推广至复杂依赖结构。
  • 在一致的贝叶斯框架内整合信息性先验,如对回归系数的稀疏性诱导先验。
  • 通过共轭指数族性质,利用吉布斯采样和变分贝叶斯方法实现可扩展推断。

提出的方法

  • 在负二项分布的聚集参数 r 上使用伽马先验,以实现共轭更新。
  • 在概率参数 p 的 logit 变换上使用对数正态先验,以实现灵活的非中心化参数化。
  • 采用多级伽马数据增广方案,实现条件共轭的后验更新。
  • 利用复合泊松表示法,推导出用于高效吉布斯采样的闭式条件后验。
  • 基于相同的增广结构推导变分贝叶斯更新,实现可扩展的近似推断。
  • 结合两种增广策略,以利用条件共轭性并确保计算效率。

实验结果

研究问题

  • RQ1能否构建一个具有两个独立随机效应的贝叶斯负二项模型,以更好地捕捉计数数据中的过度分散?
  • RQ2能否通过共轭先验和数据增广,在此类模型中实现高效的闭式后验计算?
  • RQ3该模型能否在可处理的推断框架内支持信息性先验,如对回归系数的稀疏性诱导先验?
  • RQ4与传统的泊松模型或标准负二项模型相比,该方法在性能和可扩展性方面表现如何?
  • RQ5该推断框架能否推广至计数数据中的多变量和层次化依赖结构?

主要发现

  • 通过多级伽马和复合泊松数据增广,所提模型实现了闭式后验更新,支持高效的吉布斯采样。
  • 变分贝叶斯推断也以闭式推导,支持可扩展的近似贝叶斯推断。
  • 通过对数正态和伽马混合结构,模型支持灵活的先验设定,包括对回归系数的稀疏性诱导先验。
  • 由于其模块化结构,该方法可推广至复杂的多变量和层次化依赖结构。
  • 在真实数据集上的实证结果表明,该模型在处理过度分散的计数数据方面具有优异效果,同时提升了可解释性和推断效率。
  • 该方法实现了计数数据的常规贝叶斯分析,克服了以往在计算可扩展性和算法复杂性方面的局限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。