[论文解读] Hierarchical Clustering Based on Mutual Information
本文提出了一种互信息聚类(MIC)算法,这是一种层次聚类方法,使用互信息(MI)作为相似性度量,利用MI的分组特性递归合并聚类。当MI估计准确时,该方法在从独立成分分析(ICA)输出重建胎儿心电图(ECG)和从线粒体DNA推断哺乳动物系统发育关系方面均优于传统方法,展示了在多种生物数据类型中具有鲁棒性。
Motivation: Clustering is a frequently used concept in variety of bioinformatical applications. We present a new method for hierarchical clustering of data called mutual information clustering (MIC) algorithm. It uses mutual information (MI) as a similarity measure and exploits its grouping property: The MI between three objects X, Y, and Z is equal to the sum of the MI between X and Y, plus the MI between Z and the combined object (XY). Results: We use this both in the Shannon (probabilistic) version of information theory, where the "objects" are probability distributions represented by random samples, and in the Kolmogorov (algorithmic) version, where the "objects" are symbol sequences. We apply our method to the construction of mammal phylogenetic trees from mitochondrial DNA sequences and we reconstruct the fetal ECG from the output of independent components analysis (ICA) applied to the ECG of a pregnant woman. Availability: The programs for estimation of MI and for clustering (probabilistic version) are available at http://www.fz-juelich.de/nic/cs/software
研究动机与目标
- 开发一种使用互信息(MI)作为接近度度量的层次聚类方法,利用其分组特性以实现更精确的聚类形成。
- 将该方法应用于两个不同的生物学问题:从ICA输出重建胎儿ECG,以及基于线粒体DNA构建哺乳动物系统发育树。
- 在概率(Shannon)和算法(Kolmogorov)信息论框架下,证明基于MI的聚类的有效性。
- 表明互信息的适当归一化对于可靠聚类至关重要,尤其是在高维或噪声数据中。
提出的方法
- MIC算法基于对象之间的成对互信息计算接近度矩阵,将每个对象视为一个随机变量或符号序列。
- 利用分组特性递归合并最相似的两个聚类:I(X,Y,Z) = I(X,Y) + I((X,Y),Z),确保一致的层次分解。
- 在每次合并步骤中,通过与组合聚类的互信息计算新复合聚类与其他所有聚类之间的接近度。
- 该算法使用谱系图,其中每次合并的高度对应于结果聚类的互信息,从而实现聚类的可视化与定量评估。
- 对于概率MI估计,该方法依赖于Krasov等(2003)开发的低偏差、低方差的先进非参数估计器。
- 对MI应用归一化,以确保相对相似性度量,这对于避免在高维或稀疏数据中的失真至关重要。
实验结果
研究问题
- RQ1互信息能否作为多样化生物学应用中层次聚类的合理且有效的接近度度量?
- RQ2互信息的分组特性是否能实现比传统联接方法更精确、更一致的层次聚类过程?
- RQ3当应用于真实世界生物数据(如ECG信号和线粒体DNA序列)时,基于MI的聚类性能与标准方法相比如何?
- RQ4在高维或噪声环境下,MIC算法的准确性在多大程度上依赖于互信息估计的质量?
主要发现
- MIC算法成功从ICA成分中重建了胎儿ECG,谱系图清晰地根据互信息水平将母体和胎儿ECG贡献分离。
- 在ECG应用中,通道1–14的互信息约为1.43,而通道6–8的值约为0.34,表明存在不同的信号聚类。
- 使用MIC从线粒体DNA序列构建的系统发育树显示出生物学上合理的分组,随着更多物种的加入,准确率有望进一步提高。
- 谱系图中的一些小不一致(例如涉及聚类(1–14)和(15–18)的合并)被归因于MI估计误差,而非方法本身的结构性缺陷。
- 该方法在两个截然不同的领域——心脏病学和基因组学中均表现出鲁棒性,表明基于MI的聚类具有广泛适用性。
- 发现互信息的适当归一化对于可靠聚类至关重要,尤其是在算法信息论框架中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。