[论文解读] Out of Many, One: Designing and Scaffolding Proteins at the Scale of the Structural Universe with Genie 2
Genie 2 在 Genie 的基础上扩展,支持单一和多基序蛋白支架设计,实现最先进的可设计性、多样性和新颖性,并通过使用基序条件化和对 AlphaFold 数据的大规模增量,扩展到更大结构空间。
Protein diffusion models have emerged as a promising approach for protein design. One such pioneering model is Genie, a method that asymmetrically represents protein structures during the forward and backward processes, using simple Gaussian noising for the former and expressive SE(3)-equivariant attention for the latter. In this work we introduce Genie 2, extending Genie to capture a larger and more diverse protein structure space through architectural innovations and massive data augmentation. Genie 2 adds motif scaffolding capabilities via a novel multi-motif framework that designs co-occurring motifs with unspecified inter-motif positions and orientations. This makes possible complex protein designs that engage multiple interaction partners and perform multiple functions. On both unconditional and conditional generation, Genie 2 achieves state-of-the-art performance, outperforming all known methods on key design metrics including designability, diversity, and novelty. Genie 2 also solves more motif scaffolding problems than other methods and does so with more unique and varied solutions. Taken together, these advances set a new standard for structure-based protein design. Genie 2 inference and training code, as well as model weights, are freely available at: https://github.com/aqlaboratory/genie2.
研究动机与目标
- 通过在未指定基序之间几何关系的情况下实现基序支架化,扩展蛋白质结构的设计空间。
- 提高无条件蛋白质生成的质量,以实现更高的可设计性、多样性和新颖性。
- 使单一基序和多基序支架化成为可能,从而设计具有多个功能位点或相互作用伙伴的蛋白质。
- 利用来自 AlphaFold 数据库的大规模增强,拓宽观测到的结构空间。
提出的方法
- 使用 Genie 的扩散框架,配备 SE(3) 不变编码器和 SE(3) 等变解码器,在主链坐标和参考框架上运行。
- 引入一个多基序框架,允许对基序结构进行条件化,同时保留基序之间的几何关系未指定。
- 将基序信息表述为 SE(3) 不变的成对距离矩阵和一热残基编码,提升条件化的灵活性。
- 仅在条件基序支架任务上进行训练,损失通过结合基序与支架目标来软性实现对基序约束的约束。
- 使用 AlphaFold 数据库(AFDB)预测数据进行增强,按 FoldSeek 聚类,并按置信度(pLDDT>80)和长度 ≤ 256 进行过滤。
- 使用去噪目标对比预测噪声与真实噪声在扩散步骤中的差异来优化模型。

实验结果
研究问题
- RQ1在无条件蛋白质生成方面,Genie 2 是否在可设计性、多样性和新颖性方面优于现有的扩散模型?
- RQ2Genie 2 在基序支架化方面的表现有多有效,尤其是在基序多样本、且基序之间几何关系未指定的场景?
- RQ3大规模 AFDB 数据增强对生成结构的质量和多样性有何影响?
- RQ4Genie 2 在无条件和基序支架任务中,扩展到超出训练限制的更长序列长度时表现如何?
主要发现
| 方法 | 可设计性 | 多样性 | F1 | PDB 新颖性 | AFDB 新颖性 |
|---|---|---|---|---|---|
| Chroma | 0.70 | 0.51 | 0.59 | 0.13 | 0.04 |
| RFDiffusion | 0.96 | 0.63 | 0.76 | 0.26 | 0.14 |
| Genie 2 | 0.96 | 0.91 | 0.93 | 0.41 | 0.21 |
- Genie 2 在无条件生成方面的可设计性与 Chroma 和 RFDiffusion 相当或超越,并在多样性和新颖性方面显著更高。
- 在基序支架化方面,Genie 2 优于竞争方法,解决更多任务并产生更多独特设计,尤其是在样本规模增大时。
- Genie 2 能在基序之间几何关系未充分指定的情况下实现单基序和多基序支架化,生成具有多个功能性基序的复杂设计。
- 使用 AFDB 增强进行训练扩大了观测到的结构空间,并相对于仅在 PDB 上的训练提高了性能。
- 尽管训练对象的蛋白质长度上限为 256 个残基,Genie 2 仍在最长序列长度达到 500 的情况下保持竞争力。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。