Skip to main content
QUICK REVIEW

[논문 리뷰] Structure-Informed Protein Language Model

Zuobai Zhang, Jiarui Lu|arXiv (Cornell University)|2024. 02. 07.
Machine Learning in Bioinformatics인용 수 8
한 줄 요약

이 논문은 원격 상동성 탐지를 통해 단백질 언어 모델에 구조 지식을 주입하여 기능 주석 작업을 개선하고, 구조 정보가 예측에 도움되거나 해를 끼칠 때를 강조합니다.

ABSTRACT

Protein language models are a powerful tool for learning protein representations through pre-training on vast protein sequence datasets. However, traditional protein language models lack explicit structural supervision, despite its relevance to protein function. To address this issue, we introduce the integration of remote homology detection to distill structural information into protein language models without requiring explicit protein structures as input. We evaluate the impact of this structure-informed training on downstream protein function prediction tasks. Experimental results reveal consistent improvements in function annotation accuracy for EC number and GO term prediction. Performance on mutant datasets, however, varies based on the relationship between targeted properties and protein structures. This underscores the importance of considering this relationship when applying structure-aware training to protein function prediction tasks. Code and model weights are available at https://github.com/DeepGraphLearning/esm-s.

연구 동기 및 목표

  • 명시적 구조 입력 없이 언어 모델에 단백질 구조 정보를 넣는 것을 동기 부여한다.
  • 원격 상동성 탐지를 사용하여 ESM 기반 모델에 구조적 신호를 증류한다.
  • 구조 정보가 포함된 모델을 기능 주석 및 돌연변이 예측 과제에서 평가한다.
  • 작업 전반에서 구조 정보가 성능에 이득이 되는지 또는 해를 끼치는지 분석한다.

제안 방법

  • 구조 정보를 주입하기 위해 원격 상동성 탐지에서 ESM-2 모델을 미세조정하여 구조 정보가 반영된 모델을 생성한다(접미사 -S).
  • 고정된 PLM 표현에 대해 함수 예측 과제를 위한 두 층 MLP 헤드를 학습한다.
  • 구조 정보가 반영된 표현을 사용한 코사인 유사도 기반 검색으로 기능을 평가한다(검색기 -R 및 -RS).
  • EC 및 GO 기능 예측, 세포 소포체 위치, 돌연변이 기반 적합도/안정성 데이터 세트에서 평가한다.
  • PLM에 더 작은 학습률을, 예측 헤드에 더 큰 학습률을 사용하여 사전 학습된 표현을 보존한다.

실험 결과

연구 질문

  • RQ1원격 상동성 탐지를 통해 구조 정보를 통합하는 것이 다운스트림 단백질 기능 예측을 향상시키는가?
  • RQ2구조 정보가 반영된 학습이 vanilla PLMs와 비교하여 서로 다른 과제 범주(EC, GO, 위치, 돌연변이 적합도)에 어떤 영향을 미치는가?
  • RQ3구조 정보가 반영된 검색기가 유사한 단백질을 검색할 때 기능 주석을 개선하는가?
  • RQ4돌연변이 관련 과제에서 구조 정보가 성능에 이득이 되거나 해를 끼치는 조건은 무엇인가?

주요 결과

  • 구조 정보가 반영된 ESM 모델은 EC 번호 및 GO 용어에 대한 기능 주석을 지속적으로 개선한다.
  • 구조 정보가 세포 위치화에 대한 약한 구조적 영향으로 인해 위치화 관련 과제에서 성능 이득이 다르게 나타난다.
  • 구조 정보가 반영된 표현을 사용하는 검색 기반 주석은 작업과 모델 규모에 관계없이 일관된 개선을 보인다.
  • 도전적인 EC 주석 테스트 세트에서 구조 정보가 반영된 검색기가 기준선보다 우수하였으며 기능 예측에서 구조적 유사성의 가치를 강조한다.
  • 구조 정보 학습의 이점은 대상 특성과 단백질 구조 간의 관계에 따라 달라진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.