Skip to main content
QUICK REVIEW

[論文レビュー] VN-EGNN: E(3)-Equivariant Graph Neural Networks with Virtual Nodes Enhance Protein Binding Site Identification

Florian Sestak, Lisa Schneckenreiter|arXiv (Cornell University)|Apr 10, 2024
Machine Learning in Bioinformatics被引用数 5
ひとこと要約

VN-EGNNはEGNNを仮想ノードで拡張し、結合部位の中心を学習・予測する。COACH420、HOLO4K、PDBbind2020データセットでDCC/DCAの最先端を達成。

ABSTRACT

Being able to identify regions within or around proteins, to which ligands can potentially bind, is an essential step to develop new drugs. Binding site identification methods can now profit from the availability of large amounts of 3D structures in protein structure databases or from AlphaFold predictions. Current binding site identification methods heavily rely on graph neural networks (GNNs), usually designed to output E(3)-equivariant predictions. Such methods turned out to be very beneficial for physics-related tasks like binding energy or motion trajectory prediction. However, the performance of GNNs at binding site identification is still limited potentially due to the lack of dedicated nodes that model hidden geometric entities, such as binding pockets. In this work, we extend E(n)-Equivariant Graph Neural Networks (EGNNs) by adding virtual nodes and applying an extended message passing scheme. The virtual nodes in these graphs are dedicated quantities to learn representations of binding sites, which leads to improved predictive performance. In our experiments, we show that our proposed method VN-EGNN sets a new state-of-the-art at locating binding site centers on COACH420, HOLO4K and PDBbind2020.

研究の動機と目的

  • 3D等変グラフと仮想ノードを用いて、結合ポケットのような隠れた幾何学的実体をモデル化し、結合部位の識別を改善する動機づけ。
  • 中心表現を学習し、オーバーシュアリングを緩和する複数の仮想ノードを持つEGNNを拡張してVN-EGNNを開発する。
  • VN-EGNNを多様な結合部位ベンチマーク(COACH420、HOLO4K、PDBbind2020)およびベースラインと比較評価する。
  • 等変性、表現力、および結合部位中心の学習に対する仮想ノードの影響について分析を提供する。

提案手法

  • E(3)-等変GNN(EGNN)を、すべての物理ノードに接続されたK個の仮想ノードを追加して拡張する。
  • 各層につき物理ノードの特徴と座標を2回更新する3相メッセージパッシング方式を用い、仮想ノードは各層で1回更新する。
  • 最終的な仮想ノードの座標を読み出して結合部位の中心を予測し、ノードレベルの結合ポケットセグメンテーションを行う。
  • 結合部位中心の位置損失とセグメンテーション損失(Diceまたはクロスエントロピー)を組み合わせたマルチタスク目的関数で訓練する。
  • 予測中心ごに信頼度スコアを割り当て学習する自己信頼モジュールを組み込む。
  • 仮想ノードを球形フィボナッチ格子上に初期化し、サンプルごとに初期配置を乱して概略的なE(3)不変性を促進する。
Figure 1: Overview of binding site identification methods. Top Left : Traditional methods, based on segmentation of a voxel grid, in which the pocket center is calculated as the geometric center of the positively labeled voxels. Bottom Left: Geometric Deep Learning approaches, such as EGNN, in which
Figure 1: Overview of binding site identification methods. Top Left : Traditional methods, based on segmentation of a voxel grid, in which the pocket center is calculated as the geometric center of the positively labeled voxels. Bottom Left: Geometric Deep Learning approaches, such as EGNN, in which

実験結果

リサーチクエスチョン

  • RQ1VN-EGNNは既存の等変GNNを超えて結合部位中心の局在化を改善できるか?
  • RQ2仮想ノードはオーバーシュアリングを緩和し、結合部位識別の表現力を高めるか?
  • RQ3VN-EGNNの予測は標準的な結合部位ベンチマークで最先端のDCCおよびDCAを達成するか?
  • RQ4複数の結合部位中心を予測し、信頼度でそれらをランク付けする際のモデルの性能はどうなるか?

主な発見

MethodParamCOACH420 DCCCOACH420 DCAHOLO4K DCCHOLO4K DCAPDBbind2020 DCCPDBbind2020 DCA
VN-EGNN (ours)1.200.605(0.009)0.750(0.008)0.532(0.021)0.659(0.026)0.669(0.015)0.820(0.010)
  • VN-EGNNはCOACH420、HOLO4K、およびPDBbind2020のベンチマークで最先端のDCCを達成(表1に記載)。
  • COACH420ではVN-EGNNが比較法の中で最高のDCAを達成し、PDBbind2020ではP2RankのDCA性能に匹敵。
  • アブレーション研究により、仮想ノード・異種メッセージパッシング・残基埋め込みを含むVN-EGNNの全要素がデータセット全体で最高の性能を示すことを確認。
  • モデルの仮想ノードは結合部位中心を推測することを学習し、訓練中に座標が実際のリガンド結合位置へ収束。
  • マルチタスク目的関数(中心位置とセグメンテーション損失の併用)と自己信頼モジュールにより、結合部位予測とそのランキングが改善。
Figure 2: Left: Example of a prediction from our model: Initial positions of the virtual nodes are represented by the yellow spheres around the protein, the ground truth binding site is indicated by the light violet ligand, whereas violet regions on the protein represent the annotated binding site.
Figure 2: Left: Example of a prediction from our model: Initial positions of the virtual nodes are represented by the yellow spheres around the protein, the ground truth binding site is indicated by the light violet ligand, whereas violet regions on the protein represent the annotated binding site.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。