[논문 리뷰] Out of Many, One: Designing and Scaffolding Proteins at the Scale of the Structural Universe with Genie 2
Genie 2는 Genie를 확장하여 단일 모티프 및 다중 모티프 단백질 골격 디자인을 지원하고, 최첨단 설계가능성, 다양성 및 참신함을 달성하며, 모티프 조건부 설정 및 AlphaFold 데이터의 대규모 증강을 통해 더 큰 구조 공간으로 확장됩니다.
Protein diffusion models have emerged as a promising approach for protein design. One such pioneering model is Genie, a method that asymmetrically represents protein structures during the forward and backward processes, using simple Gaussian noising for the former and expressive SE(3)-equivariant attention for the latter. In this work we introduce Genie 2, extending Genie to capture a larger and more diverse protein structure space through architectural innovations and massive data augmentation. Genie 2 adds motif scaffolding capabilities via a novel multi-motif framework that designs co-occurring motifs with unspecified inter-motif positions and orientations. This makes possible complex protein designs that engage multiple interaction partners and perform multiple functions. On both unconditional and conditional generation, Genie 2 achieves state-of-the-art performance, outperforming all known methods on key design metrics including designability, diversity, and novelty. Genie 2 also solves more motif scaffolding problems than other methods and does so with more unique and varied solutions. Taken together, these advances set a new standard for structure-based protein design. Genie 2 inference and training code, as well as model weights, are freely available at: https://github.com/aqlaboratory/genie2.
연구 동기 및 목표
- 불특정 모티프 간 기하를 포함한 모티프 스캐폴딩을 가능하게 하여 단백질 구조의 설계 공간을 확장한다.
- 무조건적 단백질 생성 품질을 개선하여 더 높은 설계가능성, 다양성 및 참신함을 달성한다.
- 단일 및 다중 모티프 스캐폴딩을 가능하게 하여 다수의 기능성 모티프나 상호작용 파트너를 갖는 단백질을 설계한다.
- FoldSeek로 군집화되고 신뢰도(pLDDT>80) 및 길이 ≤ 256로 필터링된 AlphaFold 데이터베이스(AFDB) 데이터의 대규모 증강을 활용한다.
제안 방법
- 백본 좌표 및 참조 프레임에서 작동하도록 SE(3)-불변 인코더와 SE(3)-등가 디코더를 갖춘 Genie의 확산 프레임워크를 사용한다.
- 모티프 구조에 조건부를 두되 모티프 간 기하를 미지로 남기는 다중 모티프 프레임워크를 도입한다.
- 모티프 정보를 SE(3)-불변 쌍거리 행렬과 원-핫 잔기 인코딩으로 표현하여 유연한 조건부를 가능하게 한다.
- 모티프 제약을 부드럽게 강제하는 손실을 포함하는 모티프-스캐폴드 결합 목표를 통해 조건부 모티프 스캐폴딩 작업에만 집중적으로 학습한다.
- AFDB 예측을 FoldSeek로 클러스터링하고 신뢰도(pLDDT>80) 및 길이 ≤ 256로 필터링하여 학습 데이터를 증강한다.
- 예측된 노이즈와 실제 노이즈를 확산 단계 전반에 걸쳐 비교하는 노이즈 제거 목표로 모델을 최적화한다.]
- research_questions':['Genie 2가 설계가능성, 다양성 및 참신함 측면에서 무조건적 단백질 생성에서 기존 확산 모델보다 우수할 수 있는가?', '인터모티프 기하가 미지인 다중 모티프 시나리오를 포함한 모티프 스캐폴딩을 Genie 2가 얼마나 효과적으로 수행할 수 있는가?', '대규모 AFDB 데이터 증강이 생성 구조의 품질과 다양성에 어떤 영향을 미치는가?', '무조건적 및 모티프 스캐폴딩 과제에서 학습한 제한된 길이의 단백질보다 최대 500 잔기까지의 서열 길이에서 Genie 2가 어떻게 스케일링되는가?']
- key_findings':['Genie 2는 무조건적 생성에서 설계가능성은 물론 다양성과 참신함에서 Chroma 및 RFDiffusion보다 더 우수하거나 동등한 성능을 달성합니다.','Genie 2는 모티프 스캐폴딩에서 경쟁 방법들보다 우수하며 더 많은 작업을 해결하고 더 많은 고유 디자인을 생성합니다, 특히 샘플 수가 증가함에 따라 두드러집니다.','Genie 2는 간단한 간섭 없이 단일 및 다중 모티프 스캐폴딩을 가능하게 하며, 기능 모티프가 다수인 복잡한 디자인을 생성합니다.','AFDB 증강으로 학습 데이터를 확장하면 관찰 가능한 구조 공간이 확장되고 PDB 단독 학습에 비해 성능이 향상됩니다.','Genie 2는 ≤256 잔기의 단백질로 학습되었지만 500 잔기까지의 서열 길이에서도 경쟁력 있는 성능을 유지합니다.'],

실험 결과
연구 질문
- RQ1Can Genie 2 outperform existing diffusion models on unconditional protein generation in terms of designability, diversity, and novelty?
- RQ2How effectively can Genie 2 perform motif scaffolding, including multi-motif scenarios with unspecified inter-motif geometry?
- RQ3What is the impact of large-scale AFDB data augmentation on the quality and diversity of generated structures?
- RQ4How does Genie 2 scale to longer sequence lengths beyond training limits in unconditional and motif-scaffolding tasks?
주요 결과
| Method | Designability | Diversity | F1 | PDB Novelty | AFDB Novelty |
|---|---|---|---|---|---|
| Chroma | 0.70 | 0.51 | 0.59 | 0.13 | 0.04 |
| RFDiffusion | 0.96 | 0.63 | 0.76 | 0.26 | 0.14 |
| Genie 2 | 0.96 | 0.91 | 0.93 | 0.41 | 0.21 |
- Genie 2 matches or exceeds designability and achieves substantially higher diversity and novelty than Chroma and RFDiffusion on unconditional generation.
- Genie 2 outperforms competing methods on motif scaffolding, solving more tasks and yielding more unique designs, especially as sample size grows.
- Genie 2 enables single- and multi-motif scaffolding with under-specified inter-motif geometry, generating complex designs with multiple functional motifs.
- Training with AFDB augmentation expands the observed structure space and improves performance relative to training on PDB alone.
- Genie 2 maintains competitive performance across sequence lengths up to 500 residues despite being trained on ≤256 residue proteins.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.