Skip to main content
QUICK REVIEW

[论文解读] Model-Based Clustering Using Mixtures of Coalesced Generalized Hyperbolic Distributions

Cristina Tortora, Brian C. Franczak|arXiv (Cornell University)|Mar 10, 2014
Bayesian Methods and Mixture Models参考文献 59被引用 1
一句话总结

本文通过使用多维权重函数将多个缩放的广义双曲分布(GHDs)组合,提出了一种新型的共聚广义双曲分布(GHDs)混合模型,实现了对偏斜、重尾数据的灵活聚类。采用MM算法进行参数估计,并使用BIC进行模型选择,该方法在模拟数据和真实数据集上的聚类准确率优于有限混合的偏t分布模型。

ABSTRACT

Mixtures of coalesced generalized hyperbolic distributions (GHDs) are developed by merging the existing finite mixtures of generalized hyperbolic distributions with a novel mixture of multiple scaled generalized hyperbolic distributions (MSGHDs). Our mixture of coalesced GHDs are a special case of a more general mixture of mixtures, specifically they share model parameters and have a common mode. Herein we detail the development of the mixtures of MSGHDs who arise via the implementation of a multi-dimensional weight function, and derive the density of our coalesced distribution. A parameter estimation scheme is developed using the ever-expanding class of MM algorithms and the Bayesian information criterion (BIC) is used for model selection. We use our mixture of coalesced GHDs for clustering and compare them to finite mixtures of skew-t distributions using simulated and real data sets.

研究动机与目标

  • 通过组合多个缩放的广义双曲分布,构建一个用于聚类偏斜和重尾数据的灵活有限混合模型。
  • 通过引入共享模型参数和共同众数的共聚结构,解决现有有限混合GHDs的局限性。
  • 通过一种新颖的多维权重函数,实现在分量分布间的参数共享,从而提升聚类性能。
  • 利用MM算法类提供稳健的参数估计框架,并通过贝叶斯信息准则(BIC)实现模型选择。

提出的方法

  • 利用多维权重函数构建多个缩放广义双曲分布(MSGHDs)的混合模型,以诱导参数共享和众数共聚。
  • 推导出共聚广义双曲分布密度函数的解析形式,作为混合混合模型的特例。
  • 实现MM(大化-最小化)算法进行迭代参数估计,确保收敛性和数值稳定性。
  • 应用贝叶斯信息准则(BIC)选择聚类框架中最优的分量数量和模型结构。
  • 将共聚GHD混合模型集成到基于模型的聚类框架中,用于模拟数据和真实世界数据的分析。
  • 确保模型在各分量间保持共同众数,从而在高维设置下提升可解释性并减少过拟合。

实验结果

研究问题

  • RQ1与现有有限混合模型相比,共聚广义双曲分布的混合模型是否能提升在偏斜和重尾数据上的聚类性能?
  • RQ2在MSGHDs中使用多维权重函数如何影响参数共享和聚类情境下的模型可识别性?
  • RQ3在聚类准确率和模型拟合方面,所提出的模型在多大程度上优于有限混合的偏t分布?
  • RQ4MM算法在估计共聚GHD混合模型参数方面是否有效,特别是在高维或复杂数据场景中?
  • RQ5基于BIC的模型选择策略是否能可靠地识别共聚GHD混合模型框架中的最优分量数量?

主要发现

  • 所提出的共聚GHD混合模型在模拟数据和真实数据集上的聚类性能均优于有限混合的偏t分布模型。
  • 多维权重函数的使用实现了有效的参数共享和众数共聚,从而形成更简洁且稳定的模型结构。
  • MM算法确保了在复杂高维数据场景下的可靠且收敛的参数估计。
  • 基于BIC的模型选择过程成功识别出混合模型中的最优分量数量,有效减少了过拟合。
  • 共聚GHD模型在偏斜和重尾数据上表现出强鲁棒性,其聚类准确率指标优于竞争模型。
  • 所推导的共聚分布密度函数为基于模型聚类的进一步扩展提供了坚实的理论基础。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。