Skip to main content
QUICK REVIEW

[论文解读] MAD-Bayes: MAP-based Asymptotic Derivations from Bayes

Tamara Broderick, Brian Kulis|arXiv (Cornell University)|Dec 10, 2012
Bayesian Methods and Mixture Models参考文献 23被引用 63
一句话总结

本文提出MAD-Bayes,一种通用框架,通过小方差渐近分析,从贝叶斯MAP估计推导出硬分配聚类与特征学习算法。通过将渐近分析应用于使用可交换划分函数和可交换特征概率函数的后验分布,该方法生成了可扩展、可解释的算法(如BP-means),其应用范围超越聚类,支持重叠的、非穷尽的特征分配,且在可解释性和稀疏性方面优于吉布斯采样与传统K-means方法。

ABSTRACT

The classical mixture of Gaussians model is related to K-means via small-variance asymptotics: as the covariances of the Gaussians tend to zero, the negative log-likelihood of the mixture of Gaussians model approaches the K-means objective, and the EM algorithm approaches the K-means algorithm. Kulis & Jordan (2012) used this observation to obtain a novel K-means-like algorithm from a Gibbs sampler for the Dirichlet process (DP) mixture. We instead consider applying small-variance asymptotics directly to the posterior in Bayesian nonparametric models. This framework is independent of any specific Bayesian inference algorithm, and it has the major advantage that it generalizes immediately to a range of models beyond the DP mixture. To illustrate, we apply our framework to the feature learning setting, where the beta process and Indian buffet process provide an appropriate Bayesian nonparametric prior. We obtain a novel objective function that goes beyond clustering to learn (and penalize new) groupings for which we relax the mutual exclusivity and exhaustivity assumptions of clustering. We demonstrate several other algorithms, all of which are scalable and simple to implement. Empirical results demonstrate the benefits of the new framework.

研究动机与目标

  • 开发一种通用框架,从贝叶斯非参数模型推导硬分配算法,独立于特定推理算法。
  • 将经典的小方差渐近分析从高斯混合模型推广至更广泛的模型,包括通过β过程和印度餐厅过程实现的特征学习。
  • 提出一种新颖的目标函数与算法(BP-means),允许数据点属于多个特征,从而放宽聚类中互斥与穷尽性约束。
  • 证明所得算法具有可扩展性,实现简单,并在特征稀疏性与可解释性方面优于现有的吉布斯采样与K-means方法。
  • 提供一种统一的、与算法无关的方法,从贝叶斯非参数模型的MAP估计中推导出类似K-means的目标函数。

提出的方法

  • 直接将小方差渐近分析应用于贝叶斯非参数模型中的后验分布,而非应用于吉布斯采样器等推理算法。
  • 使用组合函数表达后验分布:使用可交换划分概率函数(EPPF)表示聚类,使用可交换特征概率函数(EFPF)表示特征学习。
  • 取观测方差σ² → 0的极限,从MAP估计中推导出确定性的、硬分配的目标函数。
  • 通过将该框架应用于β过程与印度餐厅过程,推导出BP-means,得到一种支持重叠特征的特征分配算法。
  • 将该方法推广至其他先验分布(如狄利克雷-多项分布),并通过积分出聚类/特征均值,扩展至边际MAP估计。
  • 实现可扩展的、类似K-means的算法,采用如K-means++初始化与分布式计算等优化技术。

实验结果

研究问题

  • RQ1能否直接将小方差渐近分析应用于后验分布,以推导出独立于推理算法的硬分配算法?
  • RQ2如何利用EPPF与EFPF将小方差渐近分析从狄利克雷过程混合模型推广至特征学习模型?
  • RQ3当将该框架应用于β过程与印度餐厅过程时,会涌现出何种新颖的目标函数与算法?
  • RQ4与现有的吉布斯采样与K-means方法相比,所得算法在性能、稀疏性与可解释性方面表现如何?
  • RQ5该框架能否扩展至边际MAP估计及其他先验分布(如狄利克雷-多项分布)?

主要发现

  • BP-means算法成功学习了重叠特征,在桌面物体数据集中,一个基础特征与两个附加特征分别捕捉了不同的视觉属性(如发质、肤色)。
  • 在FEI人脸数据集中,λ²=5的BP-means识别出一个基础特征与两个附加特征,编码了可解释的面部属性组合(如长发与深色皮肤)。
  • 特征分配模型产生的分组比K-means更稀疏且更具可解释性,特征数量(139, 106, 80, 75)在所有四种可能的特征组合中均保持平衡且有意义。
  • K-means在K=3与K=4时的聚类结果可解释性较差,其中K=4时的第4个聚类不包含任何样本图像,表明聚类结构不佳。
  • BP-means算法发现了一个冗余特征,同时包含克莱因瓶与20元钞票,表明存在一定程度的冗余,但其收敛性与稀疏性仍优于吉布斯采样。
  • 该框架不仅适用于DP混合模型,还可推广至其他模型(如狄利克雷-多项分布先验),并通过类似K-means的优化实现可扩展、高效的算法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。