Skip to main content
QUICK REVIEW

[论文解读] Clustering by compression

Rudi Cilibrasi, Paul Vitányi|ArXiv.org|Dec 19, 2003
Algorithms and Data Compression参考文献 24被引用 61
一句话总结

本文提出了归一化压缩距离(NCD),这是一种通用的相似性度量方法,通过利用压缩算法实现无需依赖领域特定特征的数据聚类。该方法在基因组学、病毒学、语言学、音乐和天文学等多个领域中均表现出稳健的、与特征无关的聚类效果,仅通过文件压缩和层次聚类即可获得与专家分类一致的结果。

ABSTRACT

We present a new method for clustering based on compression. The method doesn't use subject-specific features or background knowledge, and works as follows: First, we determine a universal similarity distance, the normalized compression distance or NCD, computed from the lengths of compressed data files (singly and in pairwise concatenation). Second, we apply a hierarchical clustering method. The NCD is universal in that it is not restricted to a specific application area, and works across application area boundaries. A theoretical precursor, the normalized information distance, co-developed by one of the authors, is provably optimal but uses the non-computable notion of Kolmogorov complexity. We propose precise notions of similarity metric, normal compressor, and show that the NCD based on a normal compressor is a similarity metric that approximates universality. To extract a hierarchy of clusters from the distance matrix, we determine a dendrogram (binary tree) by a new quartet method and a fast heuristic to implement it. The method is implemented and available as public software, and is robust under choice of different compressors. To substantiate our claims of universality and robustness, we report evidence of successful application in areas as diverse as genomics, virology, languages, literature, music, handwritten digits, astronomy, and combinations of objects from completely different domains, using statistical, dictionary, and block sorting compressors. In genomics we presented new evidence for major questions in Mammalian evolution, based on whole-mitochondrial genomic analysis: the Eutherian orders and the Marsupionta hypothesis against the Theria hypothesis.

研究动机与目标

  • 开发一种适用于多种领域的通用、与特征无关的相似性度量方法,且无需依赖领域专业知识。
  • 通过使用实际压缩器近似理论上的最优归一化信息距离(基于柯尔莫哥洛夫复杂度),弥合理论最优与实际可计算聚类之间的差距。
  • 构建一个强大且通用的聚类框架,仅依赖数据压缩和层次聚类,适用于跨应用边界的场景。
  • 通过在异构数据类型和多种压缩器上进行广泛实验,验证该方法的通用性和鲁棒性。
  • 实现对未知数据中主导相似性特征的自动发现,支持探索性数据分析和机器学习应用。

提出的方法

  • 将归一化压缩距离(NCD)定义为使用实际压缩器对理论上的归一化信息距离进行归一化且可计算的近似。
  • 使用公式计算数据对象之间的NCD:NCD(x,y) = [C(xy) - min(C(x), C(y))] / max(C(x), C(y)),其中C为压缩器,C(xy)为连接文件的压缩大小。
  • 使用标准压缩器(如PPMZ、bzip2、gzip)近似柯尔莫哥洛夫复杂度,确保NCD保持为有效的相似性度量。
  • 从所有数据对象之间的成对NCD值构建距离矩阵。
  • 应用一种新颖的快速启发式算法对四元组方法进行优化,从距离矩阵构建层次聚类树(二叉树)。
  • 将生成的聚类结果进行可视化,并与各领域中的专家分类进行验证。
Figure 1: The three possible quartet topologies for the set of leaf labels u,v,w,x
Figure 1: The three possible quartet topologies for the set of leaf labels u,v,w,x

实验结果

研究问题

  • RQ1基于压缩的相似性度量是否能在不依赖领域特定特征的前提下,实现对多样化数据领域的通用性?
  • RQ2由实际压缩器导出的NCD在多大程度上近似于理论上最优的归一化信息距离?
  • RQ3该聚类性能在不同类型的压缩器和数据类型下是否具有足够的鲁棒性?
  • RQ4NCD能否自动发现未知或复杂数据中主导的相似性特征?
  • RQ5基于NCD的聚类是否与基因组学和天文学等真实科学领域中的专家分类一致?

主要发现

  • 在对微类星体GRS 1915+105的16个X射线观测区段进行聚类时,NCD方法获得的树相似度得分S(T) = 0.994,与专家将这些区段划分为三种变异性模式的分类高度一致。
  • 该方法成功对完整线粒体基因组进行了聚类,为哺乳动物进化中对有袋类动物的Marsupionta假说提供了新证据,优于Theria假说。
  • 基于NCD对50多种欧亚语言的聚类生成的语言树与历史语言学分类结果一致,证明了其跨语言的通用性。
  • 该方法在检测学生作业中的抄袭行为方面表现出高精度,显示出在教育和文档分析应用中的实用性。
  • 对手写数字和音乐文件的NCD聚类结果与已知类别高度一致,即使未进行特征工程。
  • 该方法在不同压缩器(如PPMZ、bzip2、gzip)下表现稳健,表明其结果对压缩器的选择不敏感。
Figure 2: An example tree consistent with quartet topology $uv|wx$
Figure 2: An example tree consistent with quartet topology $uv|wx$

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。