[论文解读] Iterative Refinement Graph Neural Network for Antibody Sequence-Structure Co-design
本文提出 RefineGNN,一种迭代改进的图神经网络,用于共同设计抗体序列及其3D结构,在语言建模、抗原结合设计和 SARS-CoV-2 中和任务上优于基线方法。
Antibodies are versatile proteins that bind to pathogens like viruses and stimulate the adaptive immune system. The specificity of antibody binding is determined by complementarity-determining regions (CDRs) at the tips of these Y-shaped proteins. In this paper, we propose a generative model to automatically design the CDRs of antibodies with enhanced binding specificity or neutralization capabilities. Previous generative approaches formulate protein design as a structure-conditioned sequence generation task, assuming the desired 3D structure is given a priori. In contrast, we propose to co-design the sequence and 3D structure of CDRs as graphs. Our model unravels a sequence autoregressively while iteratively refining its predicted global structure. The inferred structure in turn guides subsequent residue choices. For efficiency, we model the conditional dependence between residues inside and outside of a CDR in a coarse-grained manner. Our method achieves superior log-likelihood on the test set and outperforms previous baselines in designing antibodies capable of neutralizing the SARS-CoV-2 virus.
研究动机与目标
- 通过对序列和3D结构的联合建模,推动抗体 CDR 的自动化设计。
- 开发一种图生成方法,能够迭代地同时细化序列和结构。
- 在固定框架区域和多分辨率上下文下实现条件生成。
- 在语言建模、抗原结合设计和 SARS-CoV-2 中和优化方面进行评估。
提出的方法
- 将抗体表示为一个序列-结构图,节点特征表示残基,边特征捕捉空间关系。
- 提出 RefineGNN,它在预测下一个残基和通过迭代图形细化来改进全局3D结构之间交替进行。
- 使用两个独立的 MPN 来预测序列标签和坐标,从而实现结构化、对旋转/平移不变的损失。
- 结合粗粒度上下文块,以高效地传播来自长上下文的信息。
- 通过注意力和多分辨率上下文(块级粗化上下文)扩展为具有固定框架的条件生成。
- 应用 ITA 基于微调以针对期望的特性(如中和)优化生成的抗体。
实验结果
研究问题
- RQ1基于图的迭代细化方法能否比仅序列的方法或一次性图方法更有效地联合生成抗体序列和结构?
- RQ2在固定框架区域和多分辨率上下文上的条件化是否能提升 CDR 生成质量与结构真实感?
- RQ3模型是否能提升诸如抗原结合和 SARS-CoV-2 中和预测等属性驱动的结果?
- RQ4迭代细化是否能够减少抗体自回归图生成中的错误级联?
主要发现
| 模型 | CDR-H1 PPL | CDR-H1 RMSD | CDR-H2 PPL | CDR-H2 RMSD | CDR-H3 PPL | CDR-H3 RMSD | AAR |
|---|---|---|---|---|---|---|---|
| LSTM | 6.79 | - | 7.21 | - | 9.70 | - | 22.53% |
| AR-GNN | 6.44 | 2.97 | 6.86 | 2.27 | 9.44 | 3.63 | 23.86% |
| RefineGNN | 6.09 | 1.18 | 6.58 | 0.87 | 8.38 | 2.50 | 35.37% |
| RAbD | - | - | - | - | - | - | 28.53% |
- RefineGNN 在 CDR-H1/H2/H3 上的困惑度低于 LSTM 和 AR-GNN(CDR-H3 perplexity:8.38 for RefineGNN vs 9.70 LSTM and 9.44 AR-GNN)。
- RefineGNN 在 CDR-H3 结构预测方面显著降低了 RMSD(CDR-H1 1.18 Å,CDR-H2 0.87 Å,CDR-H3 2.50 Å),相比 AR-GNN(分别为 2.97、2.27、3.63)。
- 在抗原结合设计方面,RefineGNN 获得最高的氨基酸恢复率 (AAR) 35.37%,与 22.53% (LSTM) 和 23.86% (AR-GNN) 相比。
- 在 SARS-CoV-2 中和优化中,RefineGNN 在 ITA 微调后达到 75.2% 的平均中和分数,高于 LSTM(72.0%)和 AR-GNN(70.4%)。
- 在 SAbDab 上预训练并在 CoVAbDab 上使用 ITA 微调的 RefineGNN 展现出更好的 perplexity (7.86) 和更高的中和分数,相较于基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。