[논문 리뷰] PoET: A generative model of protein families as sequences-of-sequences
PoET은 전체 단백질 가족을 시퀀스-오브-시퀀스로 모델링하는 자기회귀 Transformer로, 검색 기반 조건부 생성, 인델(indel) 인식 생성, 그리고 MSAs에 의존하지 않고도 많은 단백질 가족에 걸친 변이 적합도 예측을 향상시킵니다.
Generative protein language models are a natural way to design new proteins with desired functions. However, current models are either difficult to direct to produce a protein from a specific family of interest, or must be trained on a large multiple sequence alignment (MSA) from the specific family of interest, making them unable to benefit from transfer learning across families. To address this, we propose $ extbf{P}$r$ extbf{o}$tein $ extbf{E}$volutionary $ extbf{T}$ransformer (PoET), an autoregressive generative model of whole protein families that learns to generate sets of related proteins as sequences-of-sequences across tens of millions of natural protein sequence clusters. PoET can be used as a retrieval-augmented language model to generate and score arbitrary modifications conditioned on any protein family of interest, and can extrapolate from short context lengths to generalize well even for small families. This is enabled by a unique Transformer layer; we model tokens sequentially within sequences while attending between sequences order invariantly, allowing PoET to scale to context lengths beyond those used during training. In extensive experiments on deep mutational scanning datasets, we show that PoET outperforms existing protein language models and evolutionary sequence models for variant function prediction across proteins of all MSA depths. We also demonstrate PoET's ability to controllably generate new protein sequences.
연구 동기 및 목표
- 다수의 가족에 걸친 진화적 제약을 모델링하여 MSAs에 의존하지 않고 단백질 설계를 개선하려는 동기를 제시한다.
- 시퀀스-오브-시퀀스를 생성하는 확장 가능하고 순서 불변인 Transformer 아키텍처를 개발한다.
- 인출-증강 조건화와 인델을 포함한 서열 변이의 효율적 점수화/생성을 가능하게 한다.
- 깊은 변이 스캐닝 데이터 세트에서 변이 적합도 예측이 향상됨을 입증하고 새롭고 구조적으로 타당한 서열을 생성할 수 있는 능력을 보인다.
제안 방법
- PoET를 도입한다. 시퀀스-오브-시퀀스 분포 P(X=x) = 곱으로 표현되는 시퀀스들 및 토큰들에 걸친 자기회귀 모델.
- TieredTransformerDecoderLayer를 제안한다. 두 개의 어텐션 모듈: PerSequenceSelfAttn(시퀀스 내)와 SequenceOfSequencesSelfAttn(시퀀스 간)을 통해 시퀀스 간 순서를 불변으로 만들고 시퀀스 내에서의 순서 의존성을 달성한다.
- 시퀀스 내 어텐션에 로타리 위치 인코딩(Rotary Positional Encodings)을 사용하고, 시퀀스 간의 순서를 불변으로 유지하되 시퀀스 내 구조를 보존하는 새로운 시퀀스 간 상대 위치 인코딩을 사용한다.
- UniRef50에서 추출된 2900만 개의 호모로그 서열 세트를 역수 가중치로 균형 있게 학습하고, 세트 크기와 무작위 서열 순서를 통해 불변성을 촉진한다.
- S로 반환된 호모로그 서열을 조건으로 사용하여 조건부 적합도 점수를 계산하고 검색 기반 생성 및 점수를 가능하게 한다(예: PoET의 적합도 예측은 log P(v|S)이다).
- 단백질 Gym(deep mutational scanning) 데이터 세트에서 평가하고 정렬 기반, 무조건적, 조건부 및 하이브리드 단백질 언어 모델과 비교한다; 앙상블이 성능을 향상시킴을 보인다.
실험 결과
연구 질문
- RQ1PoET가 수백만 개의 단백질 시퀀스 클러스터에 걸친 진화적 제약을 일반화하여 작거나 큰 가족의 변이 적합도 예측을 향상시킬 수 있는가?
- RQ2시퀀스 간 순서 불변 어텐션을 갖는 시퀀스-오브-시퀀스 Transformer가 MS 기반이나 무조건적 모델보다 변이 효과 예측 및 인델 처리에 우수한가?
- RQ3PoET를 검색 기반 증강 언어 모델로 사용하여 MSAs를 요구하지 않고 타깃 가족에 조건화된 단백질 서열을 생성 및 점수화할 수 있는가?
- RQ4PoET가 가족 특정 특성을 보존하는 새롭고 구조적으로 타당한 서열을 생성하는 데 얼마나 우수한가?
주요 결과
| 모델 유형 | 모델 이름 | # 파라미터 | 낮음 | 중간 | 높음 | 전체 | 인델스 |
|---|---|---|---|---|---|---|---|
| Alignment-based | Site independent | N/A | 0.417 | 0.404 | 0.411 | 0.408 | N/A |
| GEMME | N/A | N/A | 0.445 | 0.449 | 0.522 | 0.463 | N/A |
| EVE (ensemble) | N/A | N/A | 0.414 | 0.441 | 0.498 | 0.448 | N/A |
| Unconditional PLM | ESM-1v (ensemble) | 3.25B | 0.356 | 0.372 | 0.510 | 0.398 | N/A |
| ProGen2 (ensemble) | 10.8B | 0.357 | 0.416 | 0.448 | 0.411 | 0.407 | |
| Tranception L (no retrieval) | 700M | 0.377 | 0.399 | 0.429 | 0.401 | 0.430 | |
| Conditional MSA Transformer (ens.) | 100M | 0.372 | 0.421 | 0.477 | 0.423 | N/A | |
| PoET (ensemble) | 201M | 0.476 | 0.466 | 0.542 | 0.484 | 0.510 | |
| Hybrid Tranception L | 700M | 0.441 | 0.437 | 0.472 | 0.445 | 0.464 | |
| TranceptEVE M | 300M | - | - | - | - | 0.516 | |
| TranceptEVE L | 700M | 0.454 | 0.463 | 0.508 | 0.471 | 0.466 | |
| PoET (ensemble) + TranceptEVE L | 901M | 0.479 | 0.480 | 0.537 | 0.492 | 0.521 |
- PoET는 ProteinGym 데이터세트 전반에서 변이 적합도 예측에 대해 최첨단 또는 경쟁력 있는 성능을 달성하며, 모든 MSA 깊이에서 치환 예측을 향상시킨다.
- PoET와 TranceptEVE L의 앙상블은 어느 한 방법 단독보다 치환 예측을 크게 개선한다.
- PoET는 인델 변이 예측에서 baselines를 능가하며 학습 MSA에 없는 인델도 점수화하고 생성할 수 있다.
- 더 긴 컨텍스트 길이(수천 토큰까지)가 PoET가 더 많은 호모로그를 관찰하고 성능을 향상시키도록 해주며 PoET가 학습 컨텍스트 길이를 넘어 일반화한다.
- PoET는 구조적으로 타당한 다양하고 새로우며(높은 pLDDT, native 유사 폴드에 가까운 TM-스코어로 클러스터링) 서열을 생성하고 가족 수준의 구조적 완전성을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.