Skip to main content
QUICK REVIEW

[論文レビュー] Protein contact prediction by joint evolutionary coupling analysis across multiple families.

Jianzhu Ma, Sheng Wang|arXiv (Cornell University)|Dec 10, 2013
Bioinformatics and Genomic Networks参考文献 18被引用数 2
ひとこと要約

本論文は、複数のタンパク質スーパーファミリーにわたる共同進化的カップリング(EC)解析と教師あり学習を統合することで、タンパク質接触予測の精度を向上させるグループグラフィカルラッソ(GGL)手法を提案する。関連するスーパーファミリーをガウスグラフィカルモデルでモデル化し、共進化パターンを共有することで、精度行列の推定を改善し、予測された接触確率を事前情報として活用することで、従来の手法と比較して保存的接触およびファミリー固有の接触の両方で優れた精度を達成する。

ABSTRACT

Protein contacts contain important information for protein structure and functional study, but contact prediction from sequence remains very challenging. Both evolutionary coupling (EC) analysis and supervised machine learning methods are developed to predict contacts, making use of different types of information, respectively. This paper presents a group graphical lasso (GGL) method for contact prediction that integrates joint multi-family EC analysis and supervised learning. Different from existing single-family EC analysis that uses residue co-evolution information in only the target protein family, our joint EC analysis uses residue co-evolution in both the target family and its related families, which may have divergent sequences but similar folds. To implement joint EC analysis, we model a set of related protein families using Gaussian graphical models (GGM) and then co-estimate their precision matrices by maximum-likelihood, subject to the constraint that the precision matrices shall share similar residue co-evolution patterns. To further improve the accuracy of the estimated precision matrices, we employ a supervised learning method to predict contact probability from a variety of evolutionary and non-evolutionary information and then incorporate the predicted probability as prior into our GGL framework. Experiments show that our method can predict contacts much more accurately than existing methods, and that our method performs better on both conserved and family-specific contacts.

研究の動機と目的

  • ターゲットファミリー以外の共進化信号を活用することで、タンパク質接触予測の精度を向上させること。
  • 相同なフォールドを示すが配列が異なる関連ファミリーを無視する単一ファミリーの進化的カップリング解析の限界を解消すること。
  • ガウスグラフィカルモデルを用いて複数の関連タンパク質ファミリーを統合的にモデル化することで、精度行列の推定を向上させること。
  • 教師あり学習による接触確率予測を事前情報としてGGLフレームワークに統合し、推定精度を向上させること。
  • 本手法の性能を、既存の手法が困難とする保存的接触およびファミリー固有の接触の両方で評価すること。

提案手法

  • 本手法は、関連するタンパク質ファミリーの集合をガウスグラフィカルモデル(GGM)でモデル化し、アミノ酸残基の共進化パターンを表現する。
  • 同じ共進化パターンを共有する制約の下で、複数ファミリーの精度行列を最尤推定により同時に推定する。
  • 関連ファミリーの精度行列同士の構造的類似性を強制するために、グループグラフィカルラッソ(GGL)フレームワークを採用する。
  • 教師あり学習を用いて、進化的および非進化的特徴から接触確率を予測し、その予測結果をGGLモデルに事前情報として統合する。
  • 共同推定プロセスにより、多ファミリーECデータと学習された接触確率を統合し、接触予測を精緻化する。

実験結果

リサーチクエスチョン

  • RQ1単一ファミリーEC解析と比較して、関連する複数ファミリーにわたる共同EC解析は、接触予測精度を向上させることができるか?
  • RQ2教師あり学習で得た接触確率予測値を事前情報として統合することで、多ファミリーEC解析における精度行列推定にどのような影響を与えるか?
  • RQ3本手法は保存的接触と比較して、より予測が難しいファミリー固有の接触においても優れた性能を示すか?
  • RQ4関連ファミリー間で共有される共進化パターンは、接触予測のロバスト性をどの程度向上させるか?
  • RQ5多ファミリーデータと教師あり事前情報の統合は、GGMにおける精度行列推定をより信頼性の高いものにできるか?

主な発見

  • 提案手法は、従来の単一ファミリーECおよび教師あり学習手法よりも顕著に高い接触予測精度を達成した。
  • 多ファミリーEC解析の統合により、相同なフォールドを示すが配列が異なる関連ファミリーからの共進化信号を活用することで、予測性能が向上した。
  • 教師あり学習で得た接触確率予測値を事前情報として統合することで、精度行列推定の精度が向上した。
  • 本手法は保存的接触およびファミリー固有の接触の両方で優れた性能を示し、異なる接触タイプにわたるロバスト性を示した。
  • GGLフレームワークにおける共有共進化パターンの制約により、より信頼性が高く生物学的に妥当な接触予測が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。