[논문 리뷰] Endowing Protein Language Models with Structural Knowledge
PST는 모든 셀프 어텐션 블록에 구조 추출기를 통합하여 사전학습된 단백질 언어 모델(ESM-2)을 향상시켜 구조 인식 표현을 가능하게 하며, 이는 매개변수 효율성을 개선시키면서 단백질 기능 및 구조 예측을 향상시킨다.
Understanding the relationships between protein sequence, structure and function is a long-standing biological challenge with manifold implications from drug design to our understanding of evolution. Recently, protein language models have emerged as the preferred method for this challenge, thanks to their ability to harness large sequence databases. Yet, their reliance on expansive sequence data and parameter sets limits their flexibility and practicality in real-world scenarios. Concurrently, the recent surge in computationally predicted protein structures unlocks new opportunities in protein representation learning. While promising, the computational burden carried by such complex data still hinders widely-adopted practical applications. To address these limitations, we introduce a novel framework that enhances protein language models by integrating protein structural data. Drawing from recent advances in graph transformers, our approach refines the self-attention mechanisms of pretrained language transformers by integrating structural information with structure extractor modules. This refined model, termed Protein Structure Transformer (PST), is further pretrained on a small protein structure database, using the same masked language modeling objective as traditional protein language models. Empirical evaluations of PST demonstrate its superior parameter efficiency relative to protein language models, despite being pretrained on a dataset comprising only 542K structures. Notably, PST consistently outperforms the state-of-the-art foundation model for protein sequences, ESM-2, setting a new benchmark in protein function prediction. Our findings underscore the potential of integrating structural information into protein language models, paving the way for more effective and efficient protein modeling Code and pretrained models are available at https://github.com/BorgwardtLab/PST.
연구 동기 및 목표
- 단백질 모델링에서 시퀀스와 구조를 연결하기 위해 변환기 기반 PLM에 구조 정보를 주입한다.
- 매개변수 요구를 줄이면서 단백질 기능 및 구조 예측 정확도를 향상시킨다.
- 무거운 태스크 특화 파인튜닝 없이도 다양한 다운스트림 태스크에서 구조 인지 표현의 활용 가능성을 입증한다.
- 구조 추출기만 다듬는 것이 상당한 이점을 낳을 수 있음을 보여주고, 부분 사전학습 전략이 성능을 유지하거나 향상시킬 수 있음을 시사한다.
제안 방법
- 단백질을 잔기로 노드로, 8Å 이내의 근접성을 간선으로 하는 그래프로 표현한다.
- 사전 학습된 ESM-2 백본의 각 셀프 어텐션 블록에 구조 추출기(예: 2-layer GIN)를 통합한다.
- 추출기가 생성하는 구조 인지 임베딩으로 Q, K, V를 수정한다 (Eq. 5).
- AlphaFoldDB SwissProt 부분집합에서 ESM-2와 동일한 MLM 목표를 사용하여 PST 모델을 사전 학습한다.
- 사전 학습 중 구조 추출기 파라미터만 업데이트하거나 전체 모델을 업데이트하는 것을 선택적으로 수행한다.
- 특정 태스크 파인튜닝 없이 고정 표현(MLP/선형 헤드)을 통해 태스크 전반에서 PST를 평가한다.
실험 결과
연구 질문
- RQ1트랜스포머 셀프 어텐션에 구조 정보를 통합하는 것이 백본 PLMs를 넘어서 단백질 기능 및 구조 예측을 개선하는가?
- RQ2구조 추출기 사용이 매개변수 효율성과 모델 크기에 따른 성능에 어떤 영향을 미치는가?
- RQ3GO 및 EC 기능 예측, 폴드 분류, ProteinShake 태스크에서 PST의 성능은 최첨단의 시퀀스 및 구조 모델과 비교하여 어떤가?
- RQ4사전 학습 동안 구조 추출기만 업데이트하는 것이 경쟁력 있는 표현을 달성하는 데 충분한가, 그리고 추론 시 구조적 표현과 시퀀스 표현을 결합하면 결과를 향상시킬 수 있는가?
주요 결과
- PST는 효소 및 유전자 온톨로지(GO) 분류와 같은 기능 예측 태스크에서 최첨단 성능을 달성한다.
- 고정 표현임에도 PST 표현은 태스크 간에 견고하여 태스크 특이적 파인튜닝의 필요성을 감소시킨다.
- PST는 지속적으로 ESM-2를 능가하며, 특히 더 작은 ESM-2 백본에서 더 큰 이점을 보이고 매개변수 효율성의 이점을 강조한다.
- 전체 PST의 사전 학습이 최상의 결과를 내지만, 구조 추출기만 업데이트하는 것도 비슷한 성능을 제공하면서 더 높은 효율성을 가진다.
- 더 미묘한 구조 정보를 도입하면 사전 학습 정확도가 개선되지만 다운스트림 태스크 성능이 감소할 수 있어, 더 발전된 목표의 필요성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.