Skip to main content
QUICK REVIEW

[論文レビュー] Protein secondary structure prediction using deep convolutional neural fields

Sheng Wang, Jian Peng|arXiv (Cornell University)|Dec 2, 2015
Protein Structure and Dynamics参考文献 79被引用数 41
ひとこと要約

本論文は、深層畳み込みニューラルフィールドモデルであるDeepCNFを提案する。DeepCNFは、条件付き確率場(CRF)と深層階層的ニューラルネットワークを統合することで、タンパク質二次構造予測の性能を向上させる。複雑な配列-構造関係とラベル依存性をモデル化することで、DeepCNFはCASBおよびCAMEOベンチマークで84% Q3精度、85% SOV、72% Q8を達成し、10年以上にわたり約80% Q3精度に飽和していた従来手法に比べ顕著な改善を示した。

ABSTRACT

Protein secondary structure (SS) prediction is important for studying protein structure and function. When only the sequence (profile) information is used as input feature, currently the best predictors can obtain ~80% Q3 accuracy, which has not been improved in the past decade. Here we present DeepCNF (Deep Convolutional Neural Fields) for protein SS prediction. DeepCNF is a Deep Learning extension of Conditional Neural Fields (CNF), which is an integration of Conditional Random Fields (CRF) and shallow neural networks. DeepCNF can model not only complex sequence-structure relationship by a deep hierarchical architecture, but also interdependency between adjacent SS labels, so it is much more powerful than CNF. Experimental results show that DeepCNF can obtain ~84% Q3 accuracy, ~85% SOV score, and ~72% Q8 accuracy, respectively, on the CASP and CAMEO test proteins, greatly outperforming currently popular predictors. As a general framework, DeepCNF can be used to predict other protein structure properties such as contact number, disorder regions, and solvent accessibility.

研究の動機と目的

  • 10年以上にわたり約80% Q3精度に飽和していたタンパク質二次構造予測精度の停滞を克服すること。
  • 浅いモデルよりも、より効果的に階層的・非線形的な配列-構造関係を捉えることができる深層学習フレームワークの開発。
  • 隣接する二次構造ラベル間の相互依存性を明示的にモデル化し、局所的な一貫性と予測の信頼性を向上させること。
  • 二次構造予測を超えて、溶媒露出度や不秩序領域といった他のタンパク質構造的性質にも適用可能な汎用的な深層学習アーキテクチャの構築。

提案手法

  • DeepCNFは、浅いニューラルネットワークの代わりに深層畳み込みニューラルネットワークを用いることで、条件付きニューラルフィールド(CNF)を拡張し、階層的かつ文脈に配慮した配列表現を学習する。
  • モデルは、タンパク質配列プロファイルからマルチレベルの特徴を抽出するため、深層残差ネットワークアーキテクチャを採用しており、長距離依存性や複雑なパターンを捉える。
  • ラベル系列依存性をモデル化するため、上部に条件付き確率場(CRF)を統合し、隣接するアミノ酸残基間での一貫性ある予測を保証する。
  • 全アーキテクチャは、バックプロパゲーションを用いてエンドツーエンドに訓練され、確率的勾配降下法で最適化された対数尤度損失関数を用いる。
  • アテンション機構は明示的に使用されていないが、階層的特徴学習を通じて、深層畳み込み層が関連する配列パターンに着実に焦点を当てる仕組みを暗黙的に学習する。
  • このフレームワークは拡張性を備えており、出力層と損失関数を変更することで、他のタンパク質構造的性質予測タスクへの適応が可能である。

実験結果

リサーチクエスチョン

  • RQ1深層ニューラルネットワークアーキテクチャは、従来手法で観察された約80% Q3精度の壁を超えて、タンパク質二次構造予測を改善できるか?
  • RQ2深層畳み込みニューラルフィールドモデルは、階層的配列特徴と局所的ラベル依存性の両方を同時に効果的に捉えることができるか?
  • RQ3深層学習とCRFベースの系列モデリングを統合することで、ベンチマークデータセット上で予測精度と頑健性に顕著な向上が得られるか?
  • RQ4提案されたフレームワークは、二次構造予測を超えて、他のタンパク質構造的性質(例:溶媒露出度、不秩序領域)の予測にも一般化可能か?
  • RQ5DeepCNFの性能は、CASPやCAMEOなどの独立テストセットにおいて、最先端の予測手法と比較してどうか?

主な発見

  • DeepCNFは、CASPおよびCAMEOテストセットで84% Q3精度を達成し、従来手法の約80% Q3精度の壁を著しく超えた。
  • 85% SOV(セグメントオーバーラップ値)を達成し、連続する二次構造セグメントの予測性能が優れていることを示した。
  • 72% Q8精度に達し、8つの二次構造状態をより高分解能で区別できることを示した。
  • 性能向上は、ニューラルCRFフレームワークによる、深層階層的特徴とラベル系列依存性の共同モデリングに起因する。
  • このフレームワークは良好な一般化性能を示し、溶媒露出度や不秩序領域といった他のタンパク質構造的性質予測タスクへの応用可能性を示唆した。
  • エンドツーエンドの訓練により、深層畳み込みニューラルフィールドが、従来の最先端モデルに比べ優れた表現学習と構造的一致性を実現できることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。