Skip to main content
QUICK REVIEW

[论文解读] Structure-based drug design with geometric deep learning

Clemens Isert, Kenneth Atz|arXiv (Cornell University)|Oct 19, 2022
Computational Drug Discovery Methods被引用 1
一句话总结

本文综述了用于基于结构的药物设计的几何深度学习(GDL)方法,重点聚焦于三维表示(网格、表面、图)以及对称性感知神经网络(E(3)、SE(3)、排列不变性),以预测分子性质、结合位点、结合模式,并实现从头配体设计。主要贡献包括应用E(3)-等变扩散模型和基于图的生成模型(如DiffSBDD和TargetDiff),生成新颖且可合成的配体,例如DF-1(靶向MDM2),其与已知化合物无结构相似性。

ABSTRACT

Structure-based drug design uses three-dimensional geometric information of macromolecules, such as proteins or nucleic acids, to identify suitable ligands. Geometric deep learning, an emerging concept of neural-network-based machine learning, has been applied to macromolecular structures. This review provides an overview of the recent applications of geometric deep learning in bioorganic and medicinal chemistry, highlighting its potential for structure-based drug discovery and design. Emphasis is placed on molecular property prediction, ligand binding site and pose prediction, and structure-based de novo molecular design. The current challenges and opportunities are highlighted, and a forecast of the future of geometric deep learning for drug discovery is presented.

研究动机与目标

  • 综述基于结构的药物发现中几何深度学习(GDL)的最新进展。
  • 分析三维分子表示(网格、表面、图)以及对称性群(E(3)、SE(3)、排列)在提升模型性能中的作用。
  • 评估GDL在分子性质预测、结合位点与结合模式预测以及从头配体设计中的潜力。
  • 识别当前挑战与未来方向,包括泛化能力、基准测试及实验验证。

提出的方法

  • 采用结合E(3)、SE(3)和排列不变性的对称性机制的三维几何深度学习模型,以处理分子结构。
  • 使用三种主要的三维表示形式:基于体素的网格、基于网格的表面,以及基于原子和化学键的图结构节点与边。
  • 应用E(3)-等变消息传递神经网络,从三维原子坐标中学习不变表示。
  • 使用归一化流和扩散模型(如DiffSBDD、TargetDiff)从结合位点几何结构生成三维分子图。
  • 将条件潜在变量模型与蛋白质结合位点的三维网格表示相结合,以生成SMILES序列。
  • 采用排列不变池化(如求和、平均)以确保图网络对原子顺序的鲁棒性。

实验结果

研究问题

  • RQ1几何深度学习在基于结构的药物设计中如何提升分子性质预测?
  • RQ2GDL模型在多大程度上能高精度预测配体结合位点和结合模式?
  • RQ3GDL能否实现三维结构配体的从头设计,且生成的配体具有合成可行性与新颖性?
  • RQ4对称性感知架构(E(3)、SE(3))如何增强模型的泛化能力与可解释性?
  • RQ5在基准测试与验证GDL模型用于现实世界药物发现时,面临哪些关键挑战?

主要发现

  • E(3)-等变扩散模型可直接在蛋白质结合位点内生成三维分子图,DiffSBDD与TargetDiff已证明此能力。
  • 通过新型几何深度学习方法生成的配体DF-1与ChEMBL中最近似分子的欧几里得距离为0.48(ECFP4),表明其具有高度新颖性。
  • 基于图的生成模型(如DiffSBDD与TargetDiff)成功生成多样且新颖的配体,其结构与数据库中已知化合物无相似性。
  • 用于训练的蛋白-配体复合物常导致模型性能与仅使用配体或仅使用蛋白描述符训练的模型相当,提示可能存在记忆而非泛化现象。
  • 当前模型在泛化方面仍面临挑战,部分研究显示其仅记忆了PDBbind中的训练数据,凸显了改进基准测试的必要性。
  • 对生成分子的实验验证仍至关重要,与实验科学家的合作对实现真实世界影响尤为关键。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。