Skip to main content
QUICK REVIEW

[논문 리뷰] VN-EGNN: E(3)-Equivariant Graph Neural Networks with Virtual Nodes Enhance Protein Binding Site Identification

Florian Sestak, Lisa Schneckenreiter|arXiv (Cornell University)|2024. 04. 10.
Machine Learning in Bioinformatics인용 수 5
한 줄 요약

VN-EGNN은 EGNN에 가상 노드를 추가하여 결합 부위 중심을 학습·예측하고, COACH420, HOLO4K, PDBbind2020 데이터셋에서 최첨단 DCC/DCA를 달성했다.

ABSTRACT

Being able to identify regions within or around proteins, to which ligands can potentially bind, is an essential step to develop new drugs. Binding site identification methods can now profit from the availability of large amounts of 3D structures in protein structure databases or from AlphaFold predictions. Current binding site identification methods heavily rely on graph neural networks (GNNs), usually designed to output E(3)-equivariant predictions. Such methods turned out to be very beneficial for physics-related tasks like binding energy or motion trajectory prediction. However, the performance of GNNs at binding site identification is still limited potentially due to the lack of dedicated nodes that model hidden geometric entities, such as binding pockets. In this work, we extend E(n)-Equivariant Graph Neural Networks (EGNNs) by adding virtual nodes and applying an extended message passing scheme. The virtual nodes in these graphs are dedicated quantities to learn representations of binding sites, which leads to improved predictive performance. In our experiments, we show that our proposed method VN-EGNN sets a new state-of-the-art at locating binding site centers on COACH420, HOLO4K and PDBbind2020.

연구 동기 및 목표

  • 3D-등가 그래프와 가상 노드를 사용하여 결합 포켓과 같은 숨은 기하학 엔티티를 모델링하고 결합 부위 식별을 개선하도록 동기를 부여한다.
  • 센터 표현을 학습하고 과도한 압축(oversquashing)을 완화하기 위해 다수의 가상 노드를 확장하여 EGNN을 확장하고 VN-EGNN을 개발한다.
  • 다양한 결합 부위 벤치마크(COACH420, HOLO4K, PDBbind2020) 및 기준선과 함께 VN-EGNN을 평가한다.
  • 등가성, 표현력 및 결합 부위 중심 학습에 미치는 가상 노드의 영향에 대한 분석을 제공한다.

제안 방법

  • E(3)-equivariant GNNs (EGNNs)을 K개의 가상 노드로 확장하고 이들이 모든 물리적 노드에 연결되도록 한다.
  • 레이어당 물리적 노드 특성과 좌표를 두 번 업데이트하는 3단계 메시지 전달 방식을 사용하되, 가상 노드는 레이어당 한 번 업데이트한다.
  • 최종 가상 노드 좌표를 읽어 결합 부위 중심을 예측하고 노드 수준의 결합 포켓 분할을 수행한다.
  • 결합 부위 중심 위치 손실과 분할 손실(Dice 또는 교차 엔트로피)을 결합한 다중 작업 목표로 학습한다.
  • 각 예측 중심에 대해 신뢰도 점수를 할당하고 학습하는 자기 신뢰 모듈을 도입한다.
  • 구형 피보니치 격자 기반으로 가상 노드를 초기화하고, 샘플별로 초기 정렬을 무작위화하여 대략적인 E(3) 불변성을 촉진한다.
Figure 1: Overview of binding site identification methods. Top Left : Traditional methods, based on segmentation of a voxel grid, in which the pocket center is calculated as the geometric center of the positively labeled voxels. Bottom Left: Geometric Deep Learning approaches, such as EGNN, in which
Figure 1: Overview of binding site identification methods. Top Left : Traditional methods, based on segmentation of a voxel grid, in which the pocket center is calculated as the geometric center of the positively labeled voxels. Bottom Left: Geometric Deep Learning approaches, such as EGNN, in which

실험 결과

연구 질문

  • RQ1이전의 등가 GNN보다 VN-EGNN이 결합 부위 중심의 위치를 더 잘 로컬라이즈할 수 있는가?
  • RQ2가상 노드가 oversquashing을 완화하고 결합 부위 식별의 표현력을 향상시키는가?
  • RQ3VN-EGNN 예측이 표준 결합 부위 벤치마크에서 최첨단 DCC와 DCA를 달성하는가?
  • RQ4모델이 다수의 결합 부위 중심을 예측하고 신뢰도에 따라 순위를 매길 때의 성능은?

주요 결과

MethodParamCOACH420 DCCCOACH420 DCAHOLO4K DCCHOLO4K DCAPDBbind2020 DCCPDBbind2020 DCA
VN-EGNN (ours)1.200.605(0.009)0.750(0.008)0.532(0.021)0.659(0.026)0.669(0.015)0.820(0.010)
  • VN-EGNN은 COACH420, HOLO4K, PDBbind2020 벤치마크에서 최첨단 DCC를 달성한다(표 1에 보고된 바와 같이).
  • COACH420에서 VN-EGNN은 비교 방법들 중 최상의 DCA 점수를 얻고, PDBbind2020에서는 P2Rank의 DCA 성능과 일치한다.
  • 절제 연구는 전체 VN-EGNN(가상 노드, 이종 메시지 전달, 잔기 임베딩 등 모든 구성요소 포함)이 데이터셋 전반에서 가장 뛰어난 성능을 보임을 보여준다.
  • 모델의 가상 노드는 결합 부위 중심을 추정하는 것을 학습하고, 좌표가 학습 중 실제 리간드 결합 위치로 수렴한다.
  • 다중 작업 목표와 자기 신뢰 모듈이 결합 부위 예측 및 순위화를 향상시킨다.
Figure 2: Left: Example of a prediction from our model: Initial positions of the virtual nodes are represented by the yellow spheres around the protein, the ground truth binding site is indicated by the light violet ligand, whereas violet regions on the protein represent the annotated binding site.
Figure 2: Left: Example of a prediction from our model: Initial positions of the virtual nodes are represented by the yellow spheres around the protein, the ground truth binding site is indicated by the light violet ligand, whereas violet regions on the protein represent the annotated binding site.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.