Skip to main content
QUICK REVIEW

[論文レビュー] Effectively integrating information content and structural relationship to improve the GO-based similarity measure between proteins

Bo Li, James Z. Wang|arXiv (Cornell University)|Jan 6, 2010
Bioinformatics and Genomic Networks参考文献 31被引用数 49
ひとこと要約

本論文では、遺伝子オントロジー(GO)用語の情報含量(IC)と階層的構造的関係を統合することで、意味的類似性を向上させる、新しいタンパク質類似性測定法であるSimICを提案する。浅いアノテーションバイアスを是正することで、発現類似性および相同性との相関が著しく向上し、20,484個のイーストタンパク質-タンパク質相互作用(PPI)を予測した。そのうち214個のMIPSコンPLEXのうち159個が完全に回復され、既存の手法を上回った。

ABSTRACT

The Gene Ontology (GO) provides a knowledge base to effectively describe proteins. However, measuring similarity between proteins based on GO remains a challenge. In this paper, we propose a new similarity measure, information coefficient similarity measure (SimIC), to effectively integrate both the information content (IC) of GO terms and the structural information of GO hierarchy to determine the similarity between proteins. Testing on yeast proteins, our results show that SimIC efficiently addresses the shallow annotation issue in GO, thus improves the correlations between GO similarities of yeast proteins and their expression similarities as well as between GO similarities of yeast proteins and their sequence similarities. Furthermore, we demonstrate that the proposed SimIC is superior in predicting yeast protein interactions. We predict 20484 yeast protein-protein interactions (PPIs) between 2462 proteins based on the high SimIC values of biological process (BP) and cellular component (CC). Examining the 214 MIPS complexes in our predicted PPIs shows that all members of 159 MIPS complexes can be found in our PPI predictions, which is more than those (120/214) found in PPIs predicted by relative specificity similarity (RSS). Integrating IC and structural information of GO hierarchy can improve the effectiveness of the semantic similarity measure of GO terms. The new SimIC can effectively correct the effect of shallow annotation, and then provide an effective way to measure similarity between proteins based on Gene Ontology.

研究の動機と目的

  • 遺伝子オントロジー(GO)用語を用いたタンパク質類似性の測定、特に浅いアノテーション下での課題に対処すること。
  • 低カバレッジで高レベルのGO用語が類似性スコアを支配するというバイアスを是正すること。
  • GOベースの類似性と生物学的証拠(発現、相同性など)との相関を向上させること。
  • 意味的類似性を用いたタンパク質-タンパク質相互作用(PPI)の予測精度を向上させること。
  • GOグラフ内の情報含量(IC)と構造的階層の両方を活用する包括的で頑健な類似性測定法の開発

提案手法

  • 各GO用語の頻度に基づいて情報含量(IC)を計算する。式はIC(t) = -log(p(t)) で、p(t)は用語tの確率を表す。
  • GOの階層的構造を組み込むために、子用語から親用語へIC値を伝搬させ、上位用語が子供の特異性を継承するようにする。
  • 新しい類似性測定法であるSimICを定義。これは、ICおよび構造的関係で重み付けされたGO用語の共通部分に基づくジャカード係数に類似した指標である。
  • 2つのタンパク質間の類似性は、それらのGOアノテーションに含まれるすべての用語ペアについての重み付きジャカード類似度の最大値として計算する。
  • 類似性スコアを動的に調整し、一般化しすぎた高レベル用語を罰し、具体的でよくアノテートされた用語を優遇する。
  • 本手法は、発現データ、相同性データ、および既知のタンパク質コンプレックス(MIPS)を用いて、イヌチカセラミクス・セラミカエ(イースト)タンパク質で検証された。

実験結果

リサーチクエスチョン

  • RQ1GOオントロジーにおける情報含量と構造的階層を統合することで、タンパク質類似性測定が向上するか?
  • RQ2既存手法(相対的特異性類似性:RSS)と比較して、SimICはタンパク質-タンパク質相互作用の予測にどの程度優れているか?
  • RQ3SimICは、発現や相同性といった生物学的類似性指標との類似性にどの程度向上をもたらすか?
  • RQ4SimICは、多くのタンパク質が広範な高レベル用語にアノテートされるというGOの浅いアノテーションの影響を効果的に軽減できるか?
  • RQ5他の類似性測定法と比較して、SimICは既知のタンパク質コンプレックスをどの程度正確に回復できるか?

主な発見

  • SimICは、イーストにおけるGO類似性とタンパク質発現類似性との相関を著しく向上させ、ベースライン手法を上回った。
  • SimICはGO類似性と相同性との相関を向上させた。これは、生物学的妥当性が向上したことを示している。
  • 本手法は、生物学的プロセスおよび細胞部局用語の高いSimICスコアを用いて、2,462個のイーストタンパク質間で20,484個のタンパク質-タンパク質相互作用(PPI)を予測した。
  • 既知の214個のMIPSコンプレックスのうち159個が予測されたPPIネットワークで完全に回復された。RSS手法では120個にとどまった。
  • 結果から、ICと構造的階層を統合することで、浅いアノテーションバイアスが効果的に是正され、タンパク質機能予測における意味的類似性の正確性が向上することが示された。
  • 既存のアプローチよりも、SimICはより頑健で生物学的に意味のあるタンパク質類似性測定を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。