QUICK REVIEW

[論文レビュー] DMPfold: fast de novo protein model generation from covarying sequences using predicted distances and iterative model building

Joe G. Greener, Shaun M. Kandathil|arXiv (Cornell University)|Nov 29, 2018

Machine Learning in Bioinformatics被引用数 2

ひとこと要約

DMPfold は、相関する配列から反復的に正確なデノボタンパク質モデルを構築するための深層学習ベースの手法であり、残基同士の距離制約、骨格水素結合、二面角を予測する。CASPT12ドメインにおいて既存手法を上回る精度を達成し、小型のコンputングクラスタ上で1週間未満で、以前に特徴が不明であったPfamの「ダーク」スーパーファミリーの25%およびヒトのUniProtエントリの16%に対して信頼性の高いモデルを生成した。

ABSTRACT

The inapplicability of amino acid covariation methods to small protein families has limited their use for structural annotation of whole genomes. Recently, deep learning has shown promise in allowing accurate residue-residue contact prediction even for shallow sequence alignments. Here we introduce DMPfold, which uses deep learning to predict inter-atomic distance bounds, the main chain hydrogen bond network, and torsion angles, which it uses to build models in an iterative fashion. DMPfold produces more accurate models than two popular methods for a test set of CASP12 domains, and works just as well for transmembrane proteins. Applied to all Pfam domains without known structures, confident models for 25% of these so-called dark families were produced in under a week on a small 200 core cluster. DMPfold provides models for 16% of human proteome UniProt entries without structures, generates accurate models with fewer than 100 sequences in some cases, and is freely available.

研究の動機と目的

既存のアミノ酸相関手法が、配列アラインメントが浅い小規模なタンパク質ファミリーのモデリングに限界を示す問題に対処すること。
深層学習を活用して、配列データから原子間距離制約、水素結合ネットワーク、二面角を予測する手法を開発すること。
以前に特徴が不明であったタンパク質ファミリー、特に膜貫通タンパク質や100未満の配列を有するものに対しても、正確なデノボタンパク質構造モデリングを可能にすること。
ヒトプロテオームやPfamドメインの未知構造を含む、全プロテオームの構造アノテーションにスケーラブルかつ効率的なソリューションを提供すること。

提案手法

DMPfold は、配列の深さが限られている場合でも、複数配列アラインメントから残基同士の距離制約を深層学習で予測する。
骨格水素結合ネットワークと二面角を予測し、構造モデリングを支援する。
予測された距離制約と幾何的制約を用いて反復的に構造を精緻化するモデル構築戦略を採用する。
予測された距離制約と二次構造情報を取り込み、コンformational sampling をガイドし、モデルの正確性を向上させる。
計算効率が高く、小型のハードウェアクラスタでも迅速なモデリングが可能なように設計されている。
構造予測性能を最適化するために、相関配列データ上でエンドツーエンドに訓練される。

実験結果

リサーチクエスチョン

RQ1深層学習は、配列アラインメントが浅い小規模なタンパク質ファミリーのデノボタンパク質構造予測を改善できるか？
RQ2既知のテンプレートが存在しない状況で、予測された距離制約と幾何的制約が反復的モデリングをどの程度正確に可能にするか？
RQ3DMPfold は、Pfam やヒトプロテオームにおける以前に特徴が不明であったタンパク質ファミリー（ダークファミリー）に対して、どの程度信頼性の高いモデルを生成できるか？
RQ4既存手法と比較して、DMPfold は膜貫通タンパク質のような挑戦的なターゲットに対してどの程度の性能を示すか？
RQ5100未満の入力配列で、DMPfold は高信頼性のモデルを生成できるか？

主な発見

DMPfold は、CASP12ドメインのテストセットにおいて、2つの代表的手法を上回る精度を示し、優れたモデル品質を実証した。
DMPfold は、構造が不明とされていたPfamドメインの25％に対して、信頼性のあるモデルを生成した。
実験的に決定された構造がなかったヒトプロテオームのUniProtエントリの16％に対しても、正確なモデルを生成した。
複数配列アラインメントに100未満の配列しか含まれない状況でも、高い正確性を達成し、相関に基づく手法の適用範囲を小規模ファミリーにまで拡大した。
200コアのクラスタ上で、Pfamのダークファミリーをすべてモデリングする作業を1週間未満で完了し、高い計算効率を示した。
膜貫通タンパク質に対しても優れた性能を示し、多様なタンパク質タイプにわたる頑健性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。