Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Scale Representation Learning on Proteins

Vignesh Ram Somnath, Charlotte Bunne|arXiv (Cornell University)|Apr 4, 2022
Machine Learning in Materials Science被引用数 22
ひとこと要約

HoloProt は、二層の多尺度タンパク質グラフ(表面と構造)をスケール間で接続し、統合表現を学習し、分子 superpixels の記憶節約を用いて高いパラメータ効率で、強力なタンパク質-リガンド結合親和性回帰と酵素分類を実証します。

ABSTRACT

Proteins are fundamental biological entities mediating key roles in cellular function and disease. This paper introduces a multi-scale graph construction of a protein -- HoloProt -- connecting surface to structure and sequence. The surface captures coarser details of the protein, while sequence as primary component and structure -- comprising secondary and tertiary components -- capture finer details. Our graph encoder then learns a multi-scale representation by allowing each level to integrate the encoding from level(s) below with the graph at that level. We test the learned representation on different tasks, (i.) ligand binding affinity (regression), and (ii.) protein function prediction (classification). On the regression task, contrary to previous methods, our model performs consistently and reliably across different dataset splits, outperforming all baselines on most splits. On the classification task, it achieves a performance close to the top-performing model while using 10x fewer parameters. To improve the memory efficiency of our construction, we segment the multiplex protein surface manifold into molecular superpixels and substitute the surface with these superpixels at little to no performance loss.

研究の動機と目的

  • スケール全体で配列・構造・表面情報を捉える堅牢なタンパク質表現を動機づける。
  • 残留アソシエーションで結ばれた表面と構造の多尺度グラフ構築を提案する。
  • 低次元から高次元へ情報を伝搬する多尺度エンコーダを開発する。
  • タンパク質-リガンド結合親和性回帰と酵素触媒反応分類で評価する。
  • 分子スーパーピクセルを用いたメモリ効率の高い変種を、性能の大幅な低下なしに示す。

提案手法

  • 表面グラフ G_S とバックボーン/構造グラフ G_B の二層タンパク質グラフを構築する。
  • 表面ノードと構造ノードを残基整列エッジで結びつけ、スケール間の情報フローを可能にする。
  • 各層で別個のメッセージパッシングニューラルネットワーク (MPN) を適用し、レイヤーごとに作成された入力(表面特徴;平均化された表面埋め込みを用いた残基ベースの構造特徴)を与える。
  • 構造層ノード表現を集約してタンパク質グラフ表現 c_GP を形成する。
  • 配位子には MPN を用いて c_G Ligand を取得し、タンパク質とリガンドの表現を連結した MLP で結合親和性を予測する。
  • 酵素分類では、c_GP を入力として多クラス分類の MLP に通し酵素クラスを予測する。
  • 表面特徴を要約してメモリ使用量を削減しつつ、分子スーパーピクセルを導入する。

実験結果

リサーチクエスチョン

  • RQ1多層グラフ(タンパク質表面と構造)を組み合わせることは、単一スケール表現より予測力を向上させるか。
  • RQ2クロススケール接続は残基レベルの符号化をより高次の幾何学的・化学的特性を反映させるか。
  • RQ3分子スーパーピクセルは、性能を犠牲にせずにリッチな表面表現の有効なメモリ節約代替手段となるか。
  • RQ4さまざまなデータセット分割で HoloProt はタンパク質-リガンド結合親和性回帰でどの程度の性能を示すか。
  • RQ5HoloProt は最先端の手法と比較して、酵素触媒反応分類でどうか。

主な発見

  • HoloProt は scaffold および高同一性分割においてタンパク質-リガンド結合親和性予測で一貫して高い性能を発揮し、いくつかの分割でほとんどのベースラインを上回る。
  • 結合親和性では、完全な表面入力を用いた HoloProt は、パラメータ数を多くの競合モデルより抑えつつベースラインと同等以上の性能を達成。
  • 酵素触媒反応分類では、HoloProt はシーケンスベースやより大規模な構造ベースモデルに比べて著しく少ないパラメータで競争力のある精度を達成。
  • 分子スーパーピクセルを使用しても完全表面バリアントと同程度の性能を維持し、モチーフの効果的な捕捉とメモリ節約を示す。
  • アブレーション研究は、多層統合が単層(構造または表面)表現より一般に改善されることを示し、スケールの寄与はタスクにより異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。