Skip to main content
QUICK REVIEW

[論文レビュー] Generalizable Protein Interface Prediction with End-to-End Learning.

Raphael J.L. Townshend, Rishi Bedi|arXiv (Cornell University)|Jul 3, 2018
Machine Learning in Materials Science参考文献 23被引用数 6
ひとこと要約

SASNet は、手作業で選択された特徴量に依存せず、原子座標と原子種別のみを入力として用いるエンドツーエンドのディーブラーニングモデルであり、最先端の手法を上回る性能を発揮する。訓練データに偏りがあり、変形モデリングが行われていないにもかかわらず、変形を伴うタンパク質複合体に対しても一般化性能を示しており、タンパク質の基本的な構造的・動的原則を学習していることが示唆される。

ABSTRACT

Predicting how proteins interact with one another - that is, which surfaces of one protein bind to which surfaces of another protein - is a central problem in biology. Here we present Siamese Atomic Surfacelet Network (SASNet), the first end-to-end learning method for protein interface prediction. Despite using only spatial coordinates and identities of atoms as inputs, SASNet outperforms state-of-the-art methods that rely on complex, hand-selected features. These results are particularly striking because we train the method entirely on a significantly biased data set that does not account for the fact that proteins deform when binding to one another. Nonetheless, our network maintains high performance, without retraining, when tested on real cases in which proteins do deform. This suggests that it has learned fundamental properties of protein structure and dynamics, which has important implications for a variety of key problems related to biomolecular structure.

研究の動機と目的

  • 手動で選択された構造的特徴量を必要としないエンドツーエンドの学習手法を、タンパク質インターフェース予測に開発すること。
  • 結合に伴いコンformational 変化を示す現実世界のタンパク質複合体への一般化性能を向上させること。
  • 変形を考慮しない偏ったデータセットで訓練されたモデルが、変形を伴うケースに対しても良好に性能を発揮するかどうかを評価すること。
  • 自己教師付き表現学習を通じて、タンパク質の内在的構造的・動的性質をどの程度学習しているかを調査すること。

提案手法

  • SASNet は、2つのタンパク質構造を対称的に処理するシアン型アーキテクチャを採用しており、それらのインターフェース領域の共同表現学習を可能にしている。
  • 原子レベルでの空間的および化学的情報を符号化するために、学習された局所的表面表現(atomic surfacelets)を用いている。
  • 手動で設計された特徴量を一切使用せず、原子座標と元素種別のみを入力として、エンドツーエンドで訓練されている。
  • 類似したインターフェース領域が、多様なタンパク質ペア間ですら類似した埋め込み表現を持つように、対照的学習の目的関数を活用している。
  • ネットワークアーキテクチャは剛体変換に対して不変であるように設計されており、構造的変動に対して耐性を持つ。

実験結果

リサーチクエスチョン

  • RQ1原子座標と原子種別のみを入力として用いるエンドツーエンドのディーブラーニングモデルは、高精度なタンパク質相互作用界面を予測できるか?
  • RQ2変形しない偏ったデータセットで訓練されたモデルは、結合時にタンパク質が変形する現実の結合状態に対しても一般化できるか?
  • RQ3モデルが訓練データのバイアスを超えて、タンパク質の基本的な構造的・動的性質をどの程度学習しているか?
  • RQ4複雑な手作業特徴量に依存する最先端の手法と比較して、エンドツーエンドモデルの性能はどの程度か?

主な発見

  • SASNet は、複雑な手作業特徴量を用いる既存の最先端手法を、入力として原子座標と原子種別のみを用いるにもかかわらず上回っている。
  • 変形を伴うテストケースに対しても、モデルは高い性能を維持している。これは、変形を明示的に訓練データに含めなかったにもかかわらず成立している。
  • 変形複合体への一般化は、SASNet が訓練データのバイアスを超えてタンパク質構造と動的性質の本質的原則を学習していることを示唆している。
  • エンドツーエンドアプローチの成功は、高精度なインターフェース予測に複雑な特徴量設計が必ずしも必要でないことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。