Skip to main content
QUICK REVIEW

[论文解读] A Novel Bayesian Cluster Enumeration Criterion for Unsupervised Learning.

Freweyni K. Teklehaymanot, Michael Muma|arXiv (Cornell University)|Oct 22, 2017
Bayesian Methods and Mixture Models被引用 2
一句话总结

本文提出了一种针对无监督学习中聚类数量确定的新型贝叶斯信息准则(BIC),该准则通过在温和的分布假设下从后验概率最大化推导得出。它引入了一种基于模型的两步算法,利用多元正态分布数据的闭式BIC来选择最优聚类数,在合成数据和真实数据实验中表现优于原始BIC。

ABSTRACT

We derive a new Bayesian Information Criterion (BIC) from first principles by formulating the problem of estimating the number of clusters in an observed data set as maximization of the posterior probability of the candidate models. Given that some mild assumptions are satisfied, we provide a general BIC expression for a broad class of data distributions. This serves as an important milestone when deriving the BIC for specific data distributions. Along this line, we provide a closed-form BIC expression for multivariate Gaussian distributed observations. We show that incorporating data structure of the clustering problem into the derivation of the BIC results in an expression whose penalty term is different from that of the original BIC. We propose a two-step cluster enumeration algorithm. First, a model-based unsupervised learning algorithm partitions the data according to a given set of candidate models. Subsequently, the optimal cluster number is determined as the one associated to the model for which the proposed BIC is maximal. The performance of the proposed criterion is tested using synthetic and real data sets. Despite the fact that the original BIC is a generic criterion which does not include information about the specific model selection problem at hand, it has been widely used in the literature to estimate the number of clusters in an observed data set. We, therefore, consider it as a benchmark comparison. Simulation results show that our proposed criterion outperforms the existing cluster enumeration methods that are based on the original BIC.

研究动机与目标

  • 通过从原理出发推导出一个有原则的贝叶斯准则,以解决无监督学习中缺乏模型特定聚类数量确定准则的问题。
  • 通过将聚类特异性数据结构融入惩罚项,改进不考虑聚类特异性数据结构的通用原始BIC。
  • 推导出适用于多元正态分布观测数据的闭式BIC表达式,以实现实际应用。
  • 提出一种两步算法,结合基于模型的聚类与新BIC,实现最优聚类数选择。
  • 通过在合成数据集和真实数据集上的实证验证,将所提准则与原始BIC及其他现有方法进行比较。

提出的方法

  • 通过在候选模型后验概率最大化,将聚类数量确定问题表述为贝叶斯模型选择问题。
  • 在温和的正则性假设下推导出适用于一大类数据分布的一般BIC表达式。
  • 将一般BIC特化为多元正态分布数据,得到一个具有反映聚类结构的修改惩罚项的闭式表达式。
  • 实施两步算法:首先,对候选模型下的数据应用基于模型的聚类方法进行划分;其次,选择BIC值最高的模型。
  • 将推导出的BIC用作模型选择准则,以对模型复杂度进行惩罚,且惩罚方式对聚类问题固有结构敏感。
  • 在使用合成数据和真实数据的模拟研究中,将所提准则与原始BIC作为基准进行比较。

实验结果

研究问题

  • RQ1如何从原理出发推导出一种更反映聚类问题结构的贝叶斯聚类数量确定准则?
  • RQ2将数据结构融入BIC惩罚项在何种程度上改善了聚类的模型选择?
  • RQ3所提BIC在估计聚类数量方面的表现与原始BIC相比如何?
  • RQ4所提两步算法是否能在多种不同的数据分布下可靠地识别出真实的聚类数?
  • RQ5新BIC是否优于依赖原始BIC的现有聚类数量确定方法?

主要发现

  • 所提BIC将数据结构融入惩罚项,其公式与原始BIC不同。
  • 推导出的闭式BIC表达式专门适用于多元正态分布观测数据,可实现高效计算。
  • 模拟结果表明,所提准则在估计正确聚类数方面始终优于原始BIC。
  • 两步算法通过在候选模型中最大化所提BIC,有效识别出最优聚类数量。
  • 与现有基于BIC的聚类数量确定技术相比,所提方法在合成数据集和真实数据集上均表现出更优性能。
  • 相较于原始BIC的改进归因于考虑了聚类特异性数据结构的模型特定惩罚项。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。