QUICK REVIEW

[논문 리뷰] Structure-informed Language Models Are Protein Designers

Zaixiang Zheng, Yifan Deng|arXiv (Cornell University)|2023. 02. 03.

Machine Learning in Bioinformatics인용 수 9

한 줄 요약

LM-Design은 가벼운 구조 어댑터를 삽입하여 특정 폴드에 대한 시퀀스를 설계함으로써 단백질 언어 모델을 재목적화하고, CATH 벤치마크에서 최첨단 회복률을 달성하고 항체 및 신생 단백질에 대한 제로샷 일반화가 강하게 나타납니다.

ABSTRACT

This paper demonstrates that language models are strong structure-based protein designers. We present LM-Design, a generic approach to reprogramming sequence-based protein language models (pLMs), that have learned massive sequential evolutionary knowledge from the universe of natural protein sequences, to acquire an immediate capability to design preferable protein sequences for given folds. We conduct a structural surgery on pLMs, where a lightweight structural adapter is implanted into pLMs and endows it with structural awareness. During inference, iterative refinement is performed to effectively optimize the generated protein sequences. Experiments show that LM-Design improves the state-of-the-art results by a large margin, leading to up to 4% to 12% accuracy gains in sequence recovery (e.g., 55.65%/56.63% on CATH 4.2/4.3 single-chain benchmarks, and >60% when designing protein complexes). We provide extensive and in-depth analyses, which verify that LM-Design can (1) indeed leverage both structural and sequential knowledge to accurately handle structurally non-deterministic regions, (2) benefit from scaling data and model size, and (3) generalize to other proteins (e.g., antibodies and de novo proteins)

연구 동기 및 목표

데이터 희소성과 비결정적 영역을 해결하기 위해 구조 기반 단백질 설계를 위해 대규모 사전 학습된 단백질 언어 모델(pLMs)을 활용하는 방법을 동기 부여하고 개발합니다.
구조 인식을 가능하게 하기 위해 pLM에 가벼운 구조 어댑터를 삽입하는 모듈형 프레임워크인 LM-Design을 도입합니다.
추가 학습 데이터 없이 단일 사슬 및 다중 사슬 단백질에서 시퀀스 회복을 향상시키는 LM-Design을 입증합니다.
데이터/모델 확장으로부터의 이점과 보지 못한 단백질 계열(항체, de novo 단백질)에 일반화되는 LM-Design을 분석합니다.

제안 방법

사전 학습된 단백질 언어 모델(예: ESM-1b)에 가벼운 구조 어댑터를 삽입하여 외부 구조 인코더(예: ProteinMPNN)에 접근합니다.
백본 구조 X가 주어졌을 때 디노이징 및 조건부 시퀀스 생성을 가능하게 하는 조건부 마스킹 언어 모델링 목표(CMLM) 하에서 학습합니다.
추론 중에 디코더를 T단계 반복 재활용하여 코스-투-파인 시퀀스 최적화를 가능하게 하는 반복 정제를 수행합니다.
설계의 정확도와 다양성을 균형 있게 조절하는 온도-제어 샘플링 방식을 사용합니다.
예측 구조(예: AlphaFold2)를 통합하여 데이터 증강을 활용해 성능을 더욱 높입니다.
다양한 pLM 및 구조 인코더와 호환되는 모델 비특정적이고 모듈식 설계를 입증합니다.

실험 결과

연구 질문

RQ1구조 어댑터를 보강한 사전 학습된 단백질 언어 모델이 목표 백본으로 접히는 시퀀스를 효과적으로 설계할 수 있는가?
RQ2순수 구조 기반 설계 방법과 비교하여 LM-Design은 단일 사슬 및 다중 사슬 단백질에서 어떻게 성능을 보이는가?
RQ3반복 정제와 샘플링 온도가 설계 정확도와 다양성에 미치는 영향은 무엇인가?
RQ4LM-Design이 항체 및 de novo 단백질과 같은 보지 못한 단백질 범주에 일반화되는가?
RQ5데이터 증강과 모델 확장이 설계 성능에 어떤 영향을 미치는가?

주요 결과

LM-Design은 CATH 4.2 및 4.3 단일 사슬 벤치마크에서 각각 55.65%와 56.63%의 시퀀스 회복률을 달성했고 단백질 복합체에서는 60%를 넘습니다.
LM-Design은 추가 학습 데이터 없이 ProteinMPNN+CMLM 및 PiFold 기준선 대비 상당한 이득을 제공합니다.
반복 정제는 일관된 정확도 향상을 가져오며 몇 차례의 라운드 이후 수익은 감소합니다.
LM-Design은 더 큰 pLM(ESM-2 3B 매개변수까지) 및 사전 학습된 구조 인코더와 함께 확장되며 명확한 확장 법칙을 따릅니다.
제로샷 평가에서 항체 및 de novo 단백질에 강한 일반화를 보이며 TS50/TS500 데이터셋에서 경쟁 방법을 능가합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.