QUICK REVIEW

[논문 리뷰] Protein Representation Learning by Geometric Structure Pretraining

Zuobai Zhang, Minghao Xu|arXiv (Cornell University)|2022. 03. 11.

Machine Learning in Bioinformatics인용 수 40

한 줄 요약

본 논문은 기하학 인식 관계 그래프 신경망인 GearNet을 단백질 구조에서 사전에 학습시켜 구조 기반 표현을 학습하고, 기능 및 폴드 관련 작업에서 다수의 베이스라인보다 훨씬 적은 사전 학습 데이터로 우수한 성능을 보이며, AlphaFold-predicted 구조를 활용하기 위해 multiview contrastive learning과 self-prediction task를 결합합니다.

ABSTRACT

Learning effective protein representations is critical in a variety of tasks in biology such as predicting protein function or structure. Existing approaches usually pretrain protein language models on a large number of unlabeled amino acid sequences and then finetune the models with some labeled data in downstream tasks. Despite the effectiveness of sequence-based approaches, the power of pretraining on known protein structures, which are available in smaller numbers only, has not been explored for protein property prediction, though protein structures are known to be determinants of protein function. In this paper, we propose to pretrain protein representations according to their 3D structures. We first present a simple yet effective encoder to learn the geometric features of a protein. We pretrain the protein graph encoder by leveraging multiview contrastive learning and different self-prediction tasks. Experimental results on both function prediction and fold classification tasks show that our proposed pretraining methods outperform or are on par with the state-of-the-art sequence-based methods, while using much less pretraining data. Our implementation is available at https://github.com/DeepGraphLearning/GearNet.

연구 동기 및 목표

단백질 표현을 3D 구조에서 학습하는 것이 순서대로 얻는 것만으로는 충분하지 않음을 보여준다.
구조 기반 인코더를 개발하여 단백질의 공간적 및 화학적 상호작용을 포착한다.
다양한 보라오학적(다중 시각) contrastive 학습과 self-prediction task를 통해 비레이블 구조를 활용할 수 있도록 인코더를 사전 학습한다.
구조 기반 사전 학습이 더 적은 사전 학습 샘플로도 시퀀스 기반 방법과 대등하거나 우수한 성능을 낼 수 있음을 Demonstrate한다.

제안 방법

단백질 잔기 그래프를 구성하는 GearNet을 제안한다. 이 그래프는 순차적, 반경(radius), 그리고 KNN 간선을 사용하고, 간선 유형 조정을 포함한 관계형 그래프 합성층을 적용한다.
간선 메시지 전달 계층(GearNet-Edge)을 통해 선 그래프 구성 및 각도 관계를 이용한 희소 메시지 전달을 수행하여 간선 간의 정보를 교환한다.
생물학적으로 의미 있는 하위 구조(하위 서열 및 하위 공간 크롭)에 대해 다중 시각 contrastive 학습을 사용하여 표현을 정렬하고, 코사인 유사도 기반의 InfoNCE 손실을 적용한다.
잔기화된 기하학/물리화학적 특성을 다양한 잔기 그룹 수준에서 예측하는 잔기 유형, 거리, 각도, 이면의 다면각을 예측하는 네 가지 self-prediction 사전 학습 과제를 도입한다.
AlphaFold DB 구조(365K proteome-wide + 440K Swiss-Prot)에서 사전 학습하고 EC 번호 예측, GO 용어 예측, 폴드 분류, 반응 분류를 포함한 하위 작업에 대해 미세 조정한다.

실험 결과

연구 질문

RQ1기하학 인식 GNN이 단백질 구조에서 사전 학습되었을 때, 기능 및 폴드 예측을 순서 기반 사전 학습에 비해 향상시킬 표현을 생성할 수 있는가?
RQ2간선 중심의 메시지 전달 및 구조적 모티프에 대한 대비 학습이 구조 기반 및 시퀀스 기반 인코더에 비해 유의한 이점을 제공하는가?
RQ3서브시퀀스 및 공간 하위 구조 크롭이 다중 시각 대비 사전학습의 효과에 어떤 영향을 미치는가?
RQ4GearNet과 IEConv 계층의 결합이 폴드 분류에 비해 기능 예측 작업에서 어떤 영향을 주는가?

주요 결과

GearNet 기반 인코더는 사전 학습 없이도 기능 예측 및 폴드 분류에서 여러 베이스라인을 능가한다.
엣지 메시지 전달(GearNet-Edge)은 EC, GO-BP, GO-MF 작업에서 강력한 개선을 낳고 GO-CC에서도 경쟁력을 유지한다.
제안된 방법으로의 사전 학습은 성능을 크게 향상시키며, 종종 수적으로 훨씬 더 많은 데이터로 학습된 최첨단 시퀀스 기반 인코더를 능가하거나 일치한다.
다중 시각 대조 사전 학습(서브시퀀스 및 서브스페이스 크롭)은 EC, GO, 반응, 폴드 작업 전반에서 최상의 성능을 달성한다.
사전 학습된 구조 기반 인코더는 훨씬 적은 수의 사전 학습 구조를 사용하더라도 시퀀스 기반 모델과 동등하거나 더 나은 성능을 보일 수 있다(백만 개 미만의 구조).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.