Skip to main content
QUICK REVIEW

[论文解读] Statistical Inference for Fuzzy Clustering

Qiuyi Wu, Zihan Zhu|arXiv (Cornell University)|Jan 6, 2026
Bayesian Methods and Mixture Models被引用 0
一句话总结

介绍一个带统计推断的加权模糊C-均值框架(WFCM),包括ML估计、假设检验、自举置信区间,以及用于聚类数选择的加权Xie-Beni指示器。

ABSTRACT

Clustering is a central tool in biomedical research for discovering heterogeneous patient subpopulations, where group boundaries are often diffuse rather than sharply separated. Traditional methods produce hard partitions, whereas soft clustering methods such as fuzzy $c$-means (FCM) allow mixed memberships and better capture uncertainty and gradual transitions. Despite the widespread use of FCM, principled statistical inference for fuzzy clustering remains limited. We develop a new framework for weighted fuzzy $c$-means (WFCM) for settings with potential cluster size imbalance. Cluster-specific weights rebalance the classical FCM criterion so that smaller clusters are not overwhelmed by dominant groups, and the weighted objective induces a normalized density model with scale parameter $σ$ and fuzziness parameter $m$. Estimation is performed via a blockwise majorize--minimize (MM) procedure that alternates closed-form membership and centroid updates with likelihood-based updates of $(σ,\bw)$. The intractable normalizing constant is approximated by importance sampling using a data-adaptive Gaussian mixture proposal. We further provide likelihood ratio tests for comparing cluster centers and bootstrap-based confidence intervals. We establish consistency and asymptotic normality of the maximum likelihood estimator, validate the method through simulations, and illustrate it using single-cell RNA-seq and Alzheimer disease Neuroimaging Initiative (ADNI) data. These applications demonstrate stable uncertainty quantification and biologically meaningful soft memberships, ranging from well-separated cell populations under imbalance to a graded AD versus non-AD continuum consistent with disease progression.

研究动机与目标

  • 在生物医学数据中对不平衡子群的模糊聚类不确定性量化的需求进行动机阐述。
  • 提出一个带权的模糊C-均值目标以重新平衡聚类贡献并实现概率解释。
  • 建立一个带有可解会员更新和参数估计的基于似然的框架。
  • 实现聚类中心和成员资格的假设检验与基于自举的置信区间。
  • 提供模型选择工具以及对MLE的一致性和渐进正态性的理论保证。

提出的方法

  • 定义一个带有聚类特定权重的加权模糊C-均值(WFCM)损失以解决不平衡的聚类大小问题。
  • 由WFCM损失诱导一个归一化密度模型,包含尺度参数sigma和模糊度参数m。
  • 通过一个分块的大–小极小化(MM)过程交替进行成员更新与对sigma、w的基于似然的更新来估计参数。
  • 使用带有数据自适应高斯混合体提案的重要性采样来近似不可积的归一化常数。
  • 提供似然比检验以比较聚类中心,以及用于不确定性量化的自举置信区域。
  • 引入一个加权Xie-Beni指示符来一致地选择聚类数量。

实验结果

研究问题

  • RQ1模糊聚类如何扩展以在聚类大小不平衡下提供原则性的统计推断?
  • RQ2聚类特定权重是否能导出一个概率模型并允许对模糊成员和中心进行基于似然的推断?
  • RQ3在温和条件下,提出的估计量的渐近性质(一致性与正态性)是什么?
  • RQ4如何通过检验和自举方法量化成员资格和中心的不确定性?
  • RQ5在加权模糊聚类框架中应如何选择聚类数量?

主要发现

  • 带聚类权重的加权FCM目标可得到具有参数sigma和m的归一化密度模型。
  • 分块MM算法提供闭式的成员更新和质心更新,参数更新通过似然优化实现。
  • 使用带数据自适应高斯混合体提案的重要性采样使归一化常数的实际估计成为可能。
  • 该框架给出聚类中心的似然比检验以及参数与成员资格的自举置信区间。
  • 理论结果在温和的正则性条件下对MLE与标签置换不变性的一致性以及渐进正态性给出强有力的证明。
  • 将该框架应用于 scRNA-seq 和 ADNI 数据,显示出稳定的不确定性量化和生物学意义的软成员资格。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。