Skip to main content
QUICK REVIEW

[论文解读] Effectively integrating information content and structural relationship to improve the GO-based similarity measure between proteins

Bo Li, James Z. Wang|arXiv (Cornell University)|Jan 6, 2010
Bioinformatics and Genomic Networks参考文献 31被引用 49
一句话总结

该论文提出 SimIC,一种新颖的蛋白质相似性度量方法,通过整合基因本体论(GO)术语的信息含量(IC)和层次结构关系,以提升语义相似性。通过校正浅层注释偏差,SimIC 显著提高了与表达相似性和序列相似性的相关性,并成功预测了 20,484 个酿酒酵母蛋白-蛋白相互作用,其中 159 个(共 214 个)MIPS 复合物被完全恢复,优于现有方法。

ABSTRACT

The Gene Ontology (GO) provides a knowledge base to effectively describe proteins. However, measuring similarity between proteins based on GO remains a challenge. In this paper, we propose a new similarity measure, information coefficient similarity measure (SimIC), to effectively integrate both the information content (IC) of GO terms and the structural information of GO hierarchy to determine the similarity between proteins. Testing on yeast proteins, our results show that SimIC efficiently addresses the shallow annotation issue in GO, thus improves the correlations between GO similarities of yeast proteins and their expression similarities as well as between GO similarities of yeast proteins and their sequence similarities. Furthermore, we demonstrate that the proposed SimIC is superior in predicting yeast protein interactions. We predict 20484 yeast protein-protein interactions (PPIs) between 2462 proteins based on the high SimIC values of biological process (BP) and cellular component (CC). Examining the 214 MIPS complexes in our predicted PPIs shows that all members of 159 MIPS complexes can be found in our PPI predictions, which is more than those (120/214) found in PPIs predicted by relative specificity similarity (RSS). Integrating IC and structural information of GO hierarchy can improve the effectiveness of the semantic similarity measure of GO terms. The new SimIC can effectively correct the effect of shallow annotation, and then provide an effective way to measure similarity between proteins based on Gene Ontology.

研究动机与目标

  • 为解决使用基因本体论(GO)术语衡量蛋白质相似性,尤其是在注释覆盖不足情况下的挑战。
  • 校正由低覆盖率、高层级 GO 术语主导相似性评分所引入的偏差。
  • 提高基于 GO 的相似性与生物证据(如表达相似性和序列相似性)之间的相关性。
  • 通过语义相似性提升蛋白质-蛋白质相互作用(PPIs)预测的准确性。
  • 开发一种稳健的、整合的相似性度量方法,充分利用 GO 图中的信息含量(IC)与结构层次。

提出的方法

  • 该方法基于术语在注释语料库中的频率,计算每个 GO 术语的信息含量(IC),使用公式 IC(t) = -log(p(t)),其中 p(t) 为术语 t 的概率。
  • 通过将子术语的 IC 值向上传播至其祖先,整合 GO 的层次结构,确保高层级术语继承其后代的特异性。
  • 定义一种新的相似性度量 SimIC,作为加权交集的 Jaccard 类似系数,权重为 IC 值与结构关系。
  • 算法将两蛋白质之间的相似性计算为所有可能术语对在它们的 GO 注释中加权 Jaccard 相似性的最大值。
  • 该方法动态调整相似性评分,以惩罚过度泛化的高层级术语,优先考虑具体且注释充分的术语。
  • 该方法在酿酒酵母(Saccharomyces cerevisiae)蛋白质上进行验证,使用表达数据、序列数据和已知蛋白质复合物(MIPS)进行评估。

实验结果

研究问题

  • RQ1在基因本体论中整合信息含量与结构层次是否能改善蛋白质相似性度量?
  • RQ2与现有方法(如相对特异性相似性,RSS)相比,SimIC 在预测蛋白质-蛋白质相互作用方面表现如何?
  • RQ3SimIC 在多大程度上提升了基于 GO 的相似性与生物相似性度量(如表达相似性和序列相似性)之间的相关性?
  • RQ4SimIC 是否能有效缓解 GO 浅层注释的影响,即许多蛋白质被注释到宽泛的高层级术语?
  • RQ5与替代相似性度量相比,SimIC 在恢复已知蛋白质复合物方面表现如何?

主要发现

  • SimIC 显著提高了酿酒酵母中基于 GO 的相似性与蛋白质表达相似性之间的相关性,优于基线方法。
  • SimIC 同样增强了基于 GO 的相似性与序列相似性之间的相关性,表明其具有更好的生物学相关性。
  • 该方法利用生物过程和细胞组分术语的高 SimIC 评分,成功预测了 2,462 个酿酒酵母蛋白质之间的 20,484 个蛋白质-蛋白质相互作用(PPIs)。
  • 在已知的 214 个 MIPS 复合物中,159 个在预测的 PPI 网络中被完全恢复,而 RSS 方法仅恢复了 120 个。
  • 结果表明,整合 IC 与结构层次能有效校正浅层注释偏差,并提升蛋白质功能预测中语义相似性的准确性。
  • 与现有方法相比,SimIC 提供了一种更稳健且更具生物学意义的蛋白质相似性度量方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。