Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Scale Representation Learning on Proteins

Vignesh Ram Somnath, Charlotte Bunne|arXiv (Cornell University)|2022. 04. 04.
Machine Learning in Materials Science인용 수 22
한 줄 요약

HoloProt은 두 층 다중스케일 단백질 그래프(표면 및 구조)를 구축하고, 스케일 간 연결된 상태에서 통합 표현을 학습하며, 메모리 절감을 위한 분자 슈퍼픽셀을 사용해 파라미터 효율이 높은 상태에서 단백질-리간드 결합 친화도 회귀 및 효소 분류를 강하게 시연한다.

ABSTRACT

Proteins are fundamental biological entities mediating key roles in cellular function and disease. This paper introduces a multi-scale graph construction of a protein -- HoloProt -- connecting surface to structure and sequence. The surface captures coarser details of the protein, while sequence as primary component and structure -- comprising secondary and tertiary components -- capture finer details. Our graph encoder then learns a multi-scale representation by allowing each level to integrate the encoding from level(s) below with the graph at that level. We test the learned representation on different tasks, (i.) ligand binding affinity (regression), and (ii.) protein function prediction (classification). On the regression task, contrary to previous methods, our model performs consistently and reliably across different dataset splits, outperforming all baselines on most splits. On the classification task, it achieves a performance close to the top-performing model while using 10x fewer parameters. To improve the memory efficiency of our construction, we segment the multiplex protein surface manifold into molecular superpixels and substitute the surface with these superpixels at little to no performance loss.

연구 동기 및 목표

  • 스케일 간에 서열, 구조, 표면 정보를 포착하는 강건한 단백질 표현을 촉진한다.
  • 잔기 대응으로 연결된 표면 및 구조의 다중 스케일 그래프 구성을 제안한다.
  • 하위 스케일에서 상위 스케일로 정보를 전파하는 다중 스케일 인코더를 개발한다.
  • 단백질-리간드 결합 친화도 회귀 및 효소 촉매 반응 분류에 대해 평가한다.
  • 유의미한 성능 저하 없이 분자 슈퍼픽셀을 사용한 메모리 효율적인 변형을 보여준다.

제안 방법

  • 두 층의 단백질 그래프를 구성한다: 표면 그래프 G_S와 백본/구조 그래프 G_B.
  • 표면 노드와 구조 노드를 잔기 정렬 에지로 연결하여 스케일 간 정보 흐름을 가능하게 한다.
  • 각 층마다 별도의 메시지 패싱 신경망(MPN)을 적용하고, 입력은 층별로 구성한다(표면 특성; 평균 표면 임베딩으로 구성된 잔기 기반 구조 특성).
  • 구조 층의 노드 표현을 집계하여 단백질 그래프 표현 c_GP를 형성한다.
  • 리간드의 경우 MPN을 사용해 c_G Ligand를 얻고, 단백질 및 리간드 표현을 연결한 뒤 MLP로 결합 친화도를 예측한다.
  • 효소 분류의 경우 c_GP를 MLP에 입력하여 다중 클래스 분류로 효소 클래스를 예측한다.
  • 단백질 표면에 분자 슈퍼픽셀을 도입하여 특징을 요약하고 메모리 사용을 감소시키되 성능 저하를 최소화한다.

실험 결과

연구 질문

  • RQ1표면과 구조를 결합한 다중 스케일 그래프가 단일 스케일 표현보다 예측력을 향상시킬 수 있는가?
  • RQ2크로스 스케일 연결이 잔기 수준의 인코딩이 상위 수준의 기하학적 및 화학적 특성을 반영하도록 하는가?
  • RQ3분자 슈퍼픽셀이 성능 저하 없이 풍부한 표면 표현에 대한 효과적인 메모리 효율 대체물인가?
  • RQ4다양한 데이터 세트 분할에서 HoloProt의 단백질-리간드 결합 친화도 회귀 성능은 어떠한가?
  • RQ5최신 방법들과 비교하여 HoloProt의 효소 촉매 반응 분류 성능은 어떤가?

주요 결과

  • HoloProt은 골격 및 고-동일성 분할에서 단백질-리간드 결합 친화도 예측 성능이 일관되게 우수하며, 여러 분할에서 대부분의 베이스라인을 능가한다.
  • 결합 친화도에서, 전체 표면 입력을 사용하는 HoloProt은 베이스라인과 같거나 더 우수하며, 많은 경쟁자들보다 파라미터 수가 적다.
  • 효소 촉매 반응 분류에서 HoloProt은 시퀀스 기반 또는 더 큰 구조 기반 모델에 비해 현저히 적은 파라미터로도 경쟁력 있는 정확도를 달성한다.
  • 분자 슈퍼픽셀을 사용하면 전체 표면 버전과 유사한 성능을 유지하여 메모리 절감으로 효과적인 모티프 포착을 시사한다.
  • 병렬 실험은 다중 스케일 통합이 일반적으로 단일 스케일 표현보다 성능을 향상시키며, 스케일의 기여도는 과제에 따라 달라진다는 것을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.