Skip to main content
QUICK REVIEW

[论文解读] An Information-Theoretic External Cluster-Validity Measure

Byron Dom|arXiv (Cornell University)|Dec 12, 2012
Advanced Clustering Algorithms Research参考文献 4被引用 28
一句话总结

本文提出了一种基于信息论的外部聚类有效性度量方法,通过量化聚类标签对真实类别标签的预测能力来评估聚类质量。该方法通过建模使用聚类标签压缩类别标签所实现的码长缩减,将互信息扩展至可对具有不同聚类数的聚类结果进行合理比较,同时将估计的条件概率作为模型成本的一部分纳入考量。

ABSTRACT

In this paper we propose a measure of clustering quality or accuracy that is appropriate in situations where it is desirable to evaluate a clustering algorithm by somehow comparing the clusters it produces with ``ground truth' consisting of classes assigned to the patterns by manual means or some other means in whose veracity there is confidence. Such measures are refered to as ``external'. Our measure also has the characteristic of allowing clusterings with different numbers of clusters to be compared in a quantitative and principled way. Our evaluation scheme quantitatively measures how useful the cluster labels of the patterns are as predictors of their class labels. In cases where all clusterings to be compared have the same number of clusters, the measure is equivalent to the mutual information between the cluster labels and the class labels. In cases where the numbers of clusters are different, however, it computes the reduction in the number of bits that would be required to encode (compress) the class labels if both the encoder and decoder have free acccess to the cluster labels. To achieve this encoding the estimated conditional probabilities of the class labels given the cluster labels must also be encoded. These estimated probabilities can be seen as a model for the class labels and their associated code length as a model cost.

研究动机与目标

  • 开发一种在已知真实类别标签时,用于评估聚类质量的系统化、定量方法。
  • 实现对具有不同聚类数的聚类结果之间的公平比较。
  • 将聚类评估建模为压缩问题,衡量聚类标签对类别标签的预测效率。
  • 将互信息扩展至聚类数不同的情况,确保在不同聚类输出间评估的一致性。

提出的方法

  • 该方法通过压缩方法建模在已知聚类标签时编码类别标签所需比特数的减少。
  • 计算在给定聚类标签条件下的类别标签码长,同时结合类别在聚类中出现的估计条件概率。
  • 该度量同时考虑了模型编码成本(即估计的条件概率)与压缩后类别标签码长。
  • 通过允许不同聚类数,将互信息推广至更广泛场景,适用于跨聚类比较。
  • 该方法将聚类分配视为对类别标签的预测模型,且将模型成本纳入总码长计算。
  • 最终度量为:当将聚类标签作为辅助信息用于类别标签压缩时,预期码长的减少量。

实验结果

研究问题

  • RQ1如何设计一种聚类质量度量方法,使其能够对具有不同聚类数的聚类结果进行比较?
  • RQ2聚类标签在多大程度上能有效预测真实类别标签?
  • RQ3互信息能否被扩展以处理聚类数不同的情况,同时保持可解释性与一致性?
  • RQ4使用信息论原则,如何最优地建模聚类与类别之间的关系?
  • RQ5在聚类有效性评估中,如何公平地考虑模型复杂度(如估计的概率)?

主要发现

  • 所提出的度量方法将互信息推广至可比较不同聚类数的聚类结果。
  • 当聚类数相等时,该度量退化为聚类标签与类别标签之间的标准互信息。
  • 该方法通过测量使用聚类标签预测类别标签所带来的有效压缩增益,为聚类比较提供了系统化方法。
  • 通过纳入模型成本(特别是估计条件概率的码长),确保了模型比较的公平性。
  • 该度量使得即使聚类算法产生不同数量的聚类,也能实现聚类算法的定量评估。
  • 该方法具有鲁棒性与可解释性,将聚类评估建模为基于模型的压缩任务,具有清晰的信息论基础。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。