[论文解读] State-specific protein-ligand complex structure prediction with a multi-scale deep generative model
NeuralPLexer 是一个多尺度扩散为基础的生成模型,它从蛋白质序列和配体图预测原子级蛋白-配体复合结构,达到最先进的对接和结合位点结构恢复,包括大型构象变化。
The binding complexes formed by proteins and small molecule ligands are ubiquitous and critical to life. Despite recent advancements in protein structure prediction, existing algorithms are so far unable to systematically predict the binding ligand structures along with their regulatory effects on protein folding. To address this discrepancy, we present NeuralPLexer, a computational approach that can directly predict protein-ligand complex structures solely using protein sequence and ligand molecular graph inputs. NeuralPLexer adopts a deep generative model to sample the 3D structures of the binding complex and their conformational changes at an atomistic resolution. The model is based on a diffusion process that incorporates essential biophysical constraints and a multi-scale geometric deep learning system to iteratively sample residue-level contact maps and all heavy-atom coordinates in a hierarchical manner. NeuralPLexer achieves state-of-the-art performance compared to all existing methods on benchmarks for both protein-ligand blind docking and flexible binding site structure recovery. Moreover, owing to its specificity in sampling both ligand-free-state and ligand-bound-state ensembles, NeuralPLexer consistently outperforms AlphaFold2 in terms of global protein structure accuracy on both representative structure pairs with large conformational changes (average TM-score=0.93) and recently determined ligand-binding proteins (average TM-score=0.89). Case studies reveal that the predicted conformational variations are consistent with structure determination experiments for important targets, including human KRAS$^ extrm{G12C}$, ketol-acid reductoisomerase, and purine GPCRs. Our study suggests that a data-driven approach can capture the structural cooperativity between proteins and small molecules, showing promise in accelerating the design of enzymes, drug molecules, and beyond.
研究动机与目标
- 说明预测蛋白-配体复合物及其诱导的构象变化的必要性,超越单一结构的蛋白折叠。
- 开发一个端到端的生成框架,以蛋白质序列和配体图作为输入来采样三维复合结构。
- 通过多尺度架构引入生物物理学的归纳偏置,以捕捉全局上下文和局部相互作用。
- 在盲对接和结合位点结构恢复上展示跨多样化基准的最先进性能。
提出的方法
- 采用将自回归接触预测与基于扩散的等变结构去噪模块相结合的多尺度生成模型。
- 使用 Molecular Heat Transformer 和基于帧的表示对配体和蛋白质片段进行编码,以获得丰富的嵌入。
- 自回归地采样残基与残基-配体接触分布,以构建粗粒度的邻近地图。
- 使用具有立体化学感知的图变换器的等变扩散过程来生成原子坐标。
- 将蛋白质语言模型嵌入(ESM-2)和 AF2 模板作为辅助输入来条件化生成。
- 在 PL2019-74k 数据集上训练,损失函数结合接触图交叉熵和结构去噪项。
实验结果
研究问题
- RQ1深度生成模型是否能从蛋白质序列和配体图端到端地预测配体结合复合结构?
- RQ2该模型在配体结合后能多大程度上捕捉构象变化,包括诱导契合情景?
- RQ3将 PLMs 和模板结构整合是否相比仅使用序列/图输入能改进原子级复合预测?
- RQ4相对于现有的最先进方法,该方法在盲对接和结合位点恢复方面的表现如何?
主要发现
- NeuralPLexer 在盲蛋白-配体对接基准上达到最先进的性能,比 PDBBind2020 上的最佳现有方法在配体姿态准确性上提升高达 78%。
- 在结合位点设计任务中,NeuralPLexer 通过使用截断脚手架恢复了多达 46% 的结合位点结构,相比 Rosetta 提升约 59%。
- 对于具有大构象可塑性的配体结合蛋白,NeuralPLexer 在两个经过挑选的基准数据集上获得最高 TM-score(平均 0.906),比 AlphaFold2 高出 11–13%。
- 预测的构象变化与实验结构测定相一致,针对诸如人类 KRAS G12C、 ketol-acid reductoisomerase、和 purine GPCRs 等目标。
- 基于修补(inpainting)的结合位点建模在对接配体时具备更低的冲突率和与 AF2 指导基线相竞争的结合口袋准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。