Skip to main content
QUICK REVIEW

[논문 리뷰] Out of Many, One: Designing and Scaffolding Proteins at the Scale of the Structural Universe with Genie 2

Yeqing Lin, Minji Lee|arXiv (Cornell University)|2024. 05. 24.
Genetics, Bioinformatics, and Biomedical Research인용 수 11
한 줄 요약

Genie 2는 Genie를 확장하여 단일 모티프 및 다중 모티프 단백질 골격 디자인을 지원하고, 최첨단 설계가능성, 다양성 및 참신함을 달성하며, 모티프 조건부 설정 및 AlphaFold 데이터의 대규모 증강을 통해 더 큰 구조 공간으로 확장됩니다.

ABSTRACT

Protein diffusion models have emerged as a promising approach for protein design. One such pioneering model is Genie, a method that asymmetrically represents protein structures during the forward and backward processes, using simple Gaussian noising for the former and expressive SE(3)-equivariant attention for the latter. In this work we introduce Genie 2, extending Genie to capture a larger and more diverse protein structure space through architectural innovations and massive data augmentation. Genie 2 adds motif scaffolding capabilities via a novel multi-motif framework that designs co-occurring motifs with unspecified inter-motif positions and orientations. This makes possible complex protein designs that engage multiple interaction partners and perform multiple functions. On both unconditional and conditional generation, Genie 2 achieves state-of-the-art performance, outperforming all known methods on key design metrics including designability, diversity, and novelty. Genie 2 also solves more motif scaffolding problems than other methods and does so with more unique and varied solutions. Taken together, these advances set a new standard for structure-based protein design. Genie 2 inference and training code, as well as model weights, are freely available at: https://github.com/aqlaboratory/genie2.

연구 동기 및 목표

  • 불특정 모티프 간 기하를 포함한 모티프 스캐폴딩을 가능하게 하여 단백질 구조의 설계 공간을 확장한다.
  • 무조건적 단백질 생성 품질을 개선하여 더 높은 설계가능성, 다양성 및 참신함을 달성한다.
  • 단일 및 다중 모티프 스캐폴딩을 가능하게 하여 다수의 기능성 모티프나 상호작용 파트너를 갖는 단백질을 설계한다.
  • FoldSeek로 군집화되고 신뢰도(pLDDT>80) 및 길이 ≤ 256로 필터링된 AlphaFold 데이터베이스(AFDB) 데이터의 대규모 증강을 활용한다.

제안 방법

  • 백본 좌표 및 참조 프레임에서 작동하도록 SE(3)-불변 인코더와 SE(3)-등가 디코더를 갖춘 Genie의 확산 프레임워크를 사용한다.
  • 모티프 구조에 조건부를 두되 모티프 간 기하를 미지로 남기는 다중 모티프 프레임워크를 도입한다.
  • 모티프 정보를 SE(3)-불변 쌍거리 행렬과 원-핫 잔기 인코딩으로 표현하여 유연한 조건부를 가능하게 한다.
  • 모티프 제약을 부드럽게 강제하는 손실을 포함하는 모티프-스캐폴드 결합 목표를 통해 조건부 모티프 스캐폴딩 작업에만 집중적으로 학습한다.
  • AFDB 예측을 FoldSeek로 클러스터링하고 신뢰도(pLDDT>80) 및 길이 ≤ 256로 필터링하여 학습 데이터를 증강한다.
  • 예측된 노이즈와 실제 노이즈를 확산 단계 전반에 걸쳐 비교하는 노이즈 제거 목표로 모델을 최적화한다.]
  • research_questions':['Genie 2가 설계가능성, 다양성 및 참신함 측면에서 무조건적 단백질 생성에서 기존 확산 모델보다 우수할 수 있는가?', '인터모티프 기하가 미지인 다중 모티프 시나리오를 포함한 모티프 스캐폴딩을 Genie 2가 얼마나 효과적으로 수행할 수 있는가?', '대규모 AFDB 데이터 증강이 생성 구조의 품질과 다양성에 어떤 영향을 미치는가?', '무조건적 및 모티프 스캐폴딩 과제에서 학습한 제한된 길이의 단백질보다 최대 500 잔기까지의 서열 길이에서 Genie 2가 어떻게 스케일링되는가?']
  • key_findings':['Genie 2는 무조건적 생성에서 설계가능성은 물론 다양성과 참신함에서 Chroma 및 RFDiffusion보다 더 우수하거나 동등한 성능을 달성합니다.','Genie 2는 모티프 스캐폴딩에서 경쟁 방법들보다 우수하며 더 많은 작업을 해결하고 더 많은 고유 디자인을 생성합니다, 특히 샘플 수가 증가함에 따라 두드러집니다.','Genie 2는 간단한 간섭 없이 단일 및 다중 모티프 스캐폴딩을 가능하게 하며, 기능 모티프가 다수인 복잡한 디자인을 생성합니다.','AFDB 증강으로 학습 데이터를 확장하면 관찰 가능한 구조 공간이 확장되고 PDB 단독 학습에 비해 성능이 향상됩니다.','Genie 2는 ≤256 잔기의 단백질로 학습되었지만 500 잔기까지의 서열 길이에서도 경쟁력 있는 성능을 유지합니다.'],
Figure 1: Genie 2 architecture (top), which extends Genie to enable scaffolding on (multiple) motifs. It consists of an SE(3)-invariant encoder that transforms input features into single residue and pair residue-residue representations, and an SE(3)-equivariant decoder that updates frames based on s
Figure 1: Genie 2 architecture (top), which extends Genie to enable scaffolding on (multiple) motifs. It consists of an SE(3)-invariant encoder that transforms input features into single residue and pair residue-residue representations, and an SE(3)-equivariant decoder that updates frames based on s

실험 결과

연구 질문

  • RQ1Can Genie 2 outperform existing diffusion models on unconditional protein generation in terms of designability, diversity, and novelty?
  • RQ2How effectively can Genie 2 perform motif scaffolding, including multi-motif scenarios with unspecified inter-motif geometry?
  • RQ3What is the impact of large-scale AFDB data augmentation on the quality and diversity of generated structures?
  • RQ4How does Genie 2 scale to longer sequence lengths beyond training limits in unconditional and motif-scaffolding tasks?

주요 결과

MethodDesignabilityDiversityF1PDB NoveltyAFDB Novelty
Chroma0.700.510.590.130.04
RFDiffusion0.960.630.760.260.14
Genie 20.960.910.930.410.21
  • Genie 2 matches or exceeds designability and achieves substantially higher diversity and novelty than Chroma and RFDiffusion on unconditional generation.
  • Genie 2 outperforms competing methods on motif scaffolding, solving more tasks and yielding more unique designs, especially as sample size grows.
  • Genie 2 enables single- and multi-motif scaffolding with under-specified inter-motif geometry, generating complex designs with multiple functional motifs.
  • Training with AFDB augmentation expands the observed structure space and improves performance relative to training on PDB alone.
  • Genie 2 maintains competitive performance across sequence lengths up to 500 residues despite being trained on ≤256 residue proteins.
Figure 2: Visualizations of in-distribution performance on unconditional generation. (A) Secondary structure distributions of proteins generated by Chroma, RFDiffusion and Genie 2. For reference, we also include the secondary structure distribution of 1,000 structures randomly drawn from AFDB (far r
Figure 2: Visualizations of in-distribution performance on unconditional generation. (A) Secondary structure distributions of proteins generated by Chroma, RFDiffusion and Genie 2. For reference, we also include the secondary structure distribution of 1,000 structures randomly drawn from AFDB (far r

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.