[논문 리뷰] Generating Novel, Designable, and Diverse Protein Structures by Equivariantly Diffusing Oriented Residue Clouds
Genie는 SE(3)-등가성 추론을 방향성 잔류 프레임에서 수행하는 잡음 제거 확산 확률 모델을 사용하여 설계 가능한, 새로운, 그리고 다양한 단백질 백본을 생성한다.
Proteins power a vast array of functional processes in living cells. The capability to create new proteins with designed structures and functions would thus enable the engineering of cellular behavior and development of protein-based therapeutics and materials. Structure-based protein design aims to find structures that are designable (can be realized by a protein sequence), novel (have dissimilar geometry from natural proteins), and diverse (span a wide range of geometries). While advances in protein structure prediction have made it possible to predict structures of novel protein sequences, the combinatorially large space of sequences and structures limits the practicality of search-based methods. Generative models provide a compelling alternative, by implicitly learning the low-dimensional structure of complex data distributions. Here, we leverage recent advances in denoising diffusion probabilistic models and equivariant neural networks to develop Genie, a generative model of protein structures that performs discrete-time diffusion using a cloud of oriented reference frames in 3D space. Through in silico evaluations, we demonstrate that Genie generates protein backbones that are more designable, novel, and diverse than existing models. This indicates that Genie is capturing key aspects of the distribution of protein structure space and facilitates protein design with high success rates. Code for generating new proteins and training new versions of Genie is available at https://github.com/aqlaboratory/genie.
연구 동기 및 목표
- 진화와 알려진 자연 단백질이 탐구한 접힘을 넘어서는 de novo 단백질 디자인을 촉진한다.
- 설계 가능하고 새롭고 다양한 단백질 백본을 생성하는 생성 모델을 개발한다.
- 생성 중 기하학적 및 키랄 제약을 보존하기 위해 등가 신경망을 활용한다.
제안 방법
- T=1000 단계에 걸쳐 코사인 분산 스케줄을 사용하는 Cα 좌표에 대해 데카르트 공간에서 이산 시간 확산을 수행한다.
- 이산 Frenet-Serret 프레임에서 구성된 참조 프레임(F 프레임)의 구름을 기반으로 추론하는 SE(3)-등가성 denoiser를 사용하여 노이즈 εθ를 예측한다.
- 리진를 SE(3)-invariant 인코더로 인코딩하고, IPA와 Backbone Update Network를 사용하여 프레임을 업데이트하는 SE(3)-등가성 디코더로 디코딩한다.
- 전방 과정에서는 잔류물을 Cα 좌표 구름으로 표현하지만 역방향 과정에서는 각도 정보와 키랄성을 보존하기 위해 참조 프레임 구름으로 표현한다.
- Ho et al. 2020에 기반한 손실로 실제 노이즈와 예측 노이즈 간의 L2 오차를 최소화하여 각 확산 단계에서 노이즈를 예측하는 방식으로 학습한다.
- 무작위 화이트 노이즈 좌표 xT에서 시작하여 확산을 역전하여 x0으로 샘플링한다.

실험 결과
연구 질문
- RQ1DDPM이 oriented residue frames의 구름에서 작동하여 기존 모델보다 설계 가능성, 새로움, 다양성이 높은 단백질 백본을 생성할 수 있는가?
- RQ2SE(3)-등가성 추론이 oriented residue clouds를 통해 설계 가능성, 다양성, 새로움에 어떤 영향을 미치는가?
- RQ3Genie의 short-model (SCOPe 기반) 및 long-model (SwissProt 기반) 성능이 설계 가능성, 다양성, 새로움 측면에서 다른 DDPM 기반 방법과 비교해 어떤지?
주요 결과
- Genie는 short proteins(128 residues max)에서 ProtDiff 및 FoldingDiff보다 설계 가능성, 다양성, 새로움이 더 높다.
- 확실하게 설계 가능한 구조들 중에서 Genie는 경쟁 모델들보다 더 높은 pLDDT 점수와 더 큰 키랄성 정확성을 보인다.
- Genie는 더 다양한 이차 구조 함량과 다른 설계 구조들에 비해 더 낮은 최대 TM 점수를 보여, 더 넓은 폴드 커버리지를 시사한다.
- long proteins(최대 256 residues)의 경우 Genie는 샘플링 품질에서 FrameDiff보다 우수하지만 RFDiffusion에는 뒤처지며 설계 가능성 및 다양성 지표는 경쟁력 있다.
- Genie-생성 설계는 훈련 세트에 비해 TM<0.5의 새 Folding의 의미 있는 비율을 포함하고, MDS를 통한 넓은 설계 공간 시각화를 보여준다.
- 데이터셋 전반에 걸쳐 Genie는 설계 가능성을 유지하면서 상당한 새로움과 광범위한 구조적 다양성을 달성하며 4.1M 매개변수 효율성과 경쟁력 있는 샘플링 시간을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.