Skip to main content
QUICK REVIEW

[论文解读] Beta-Negative Binomial Process and Poisson Factor Analysis

Mingyuan Zhou, Lauren A. Hannah|arXiv (Cornell University)|Dec 15, 2011
Bayesian Methods and Mixture Models参考文献 37被引用 192
一句话总结

本文提出了一种贝塔负二项分布(BNB)过程,作为无限泊松因子分析(PFA)的非参数贝叶斯先验,通过贝塔-伽马-伽马-泊松层次结构实现对过度分散计数数据的灵活建模。该方法可自动推断活跃因子数量,在文档计数矩阵分解中实现最先进性能,困惑度低于现有模型。

ABSTRACT

A beta-negative binomial (BNB) process is proposed, leading to a beta-gamma-Poisson process, which may be viewed as a "multi-scoop" generalization of the beta-Bernoulli process. The BNB process is augmented into a beta-gamma-gamma-Poisson hierarchical structure, and applied as a nonparametric Bayesian prior for an infinite Poisson factor analysis model. A finite approximation for the beta process Levy random measure is constructed for convenient implementation. Efficient MCMC computations are performed with data augmentation and marginalization techniques. Encouraging results are shown on document count matrix factorization.

研究动机与目标

  • 解决基于高斯的潜在因子模型在建模离散、非负、过度分散计数数据时的局限性。
  • 开发一种非参数贝叶斯先验,以灵活建模潜在计数结构中的均值与方差。
  • 通过负二项分布计数将贝塔-伯努利过程推广为‘多勺’泛化形式。
  • 实现无限维计数矩阵分解的高效推断,并实现自动模型选择。
  • 通过学习的负二项分布参数,捕捉多样化的主题特征,从而提升主题建模性能。

提出的方法

  • 通过将贝塔过程扩展至标记空间 $[0,1] \times \mathbb{R}^+ \times \Omega$,提出一种贝塔负二项分布(BNB)过程,允许计数型标记。
  • 构建一个层次化的贝塔-伽马-伽马-泊松过程,其中泊松强度从伽马分布中抽取,而伽马强度则从贝塔过程抽取。
  • 使用贝塔过程Lévy随机测度的有限近似,以实现实际的MCMC实现。
  • 采用数据增强和边际化技术,对联合后验分布执行高效的MCMC推断。
  • 利用贝塔、伽马、泊松、负二项分布与狄利克雷分布之间的共轭关系,简化计算。
  • 将该模型应用于文档计数矩阵分解,将潜在因子解释为具有计数贡献的主题。

实验结果

研究问题

  • RQ1能否开发一种非参数贝叶斯先验,以灵活建模具有过度分散特性的多变量计数数据?
  • RQ2如何将贝塔-伯努利过程推广,以允许每个潜在特征对应多个计数,而非仅二值存在/缺失?
  • RQ3能否设计一种层次结构,以非参数方式联合学习潜在计数因子的均值与方差?
  • RQ4所提出的模型在文档语料库上的保留困惑度指标上是否优于现有PFA与主题模型?
  • RQ5推断出的负二项分布参数($r_k$, $p_k$)与主题可解释性及特征之间有何关系?

主要发现

  • $\beta\gamma\Gamma$-PFA模型在JACM与PsyRev文档语料库上均实现了最低的保留困惑度,优于$\Gamma$-PFA、Dirich-PFA、$\beta\Gamma$-PFA与$S\gamma\Gamma$-PFA。
  • 在JACM语料库中,$\beta\gamma\Gamma$-PFA在最终MCMC迭代中推断出132个活跃因子;在PsyRev语料库中推断出209个,展示了自动模型选择能力。
  • 主题狄利克雷先验$ a_\phi = 0.01 $取值较小时,推断出的因子数量更高,且预测性能更优,但过小的值会导致过度专业化。
  • 该模型能有效将停用词吸收至少数主导主题中,这些主题具有大均值与小方差,从而保持其他主题的可解释性。
  • 通过学习的$r_k$与$p_k$参数,准确捕捉了高均值与高方差的主题(如“rivalry, binocular, monocular”)或低均值与高方差的主题(如“search, binary, tree”)。
  • 该层次结构实现了因子载荷及其过度分散性的联合学习,从而生成更稳健且可解释的主题模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。