Skip to main content
QUICK REVIEW

[论文解读] Structure-aware generation of drug-like molecules

Pavol Drotár, Arian R. Jamasb|arXiv (Cornell University)|Nov 7, 2021
Computational Drug Discovery Methods被引用 13
一句话总结

该论文提出了一种监督生成模型,通过晶体学数据引导,利用离散化的内部坐标联合生成分子图和蛋白质口袋内的3D构象。通过整合几何深度学习(SchNet)与迭代、结构感知的逐原子生成方法,该模型在基线模型基础上将预测结合亲和力提高了8%,药物样性提高了10%,生成的分子在打分对接中表现优于已知配体。

ABSTRACT

Structure-based drug design involves finding ligand molecules that exhibit structural and chemical complementarity to protein pockets. Deep generative methods have shown promise in proposing novel molecules from scratch (de-novo design), avoiding exhaustive virtual screening of chemical space. Most generative de-novo models fail to incorporate detailed ligand-protein interactions and 3D pocket structures. We propose a novel supervised model that generates molecular graphs jointly with 3D pose in a discretised molecular space. Molecules are built atom-by-atom inside pockets, guided by structural information from crystallographic data. We evaluate our model using a docking benchmark and find that guided generation improves predicted binding affinities by 8% and drug-likeness scores by 10% over the baseline. Furthermore, our model proposes molecules with binding scores exceeding some known ligands, which could be useful in future wet-lab studies.

研究动机与目标

  • 解决现有生成模型在整合详细3D蛋白-配体相互作用和口袋几何结构方面的局限性。
  • 开发一种监督方法,实现逐原子生成,同时联合预测3D构象与分子图。
  • 通过利用晶体学数据集中的高分辨率结构数据,在从头配体设计中提升结合亲和力与药物样性。
  • 通过涵盖真实世界设计挑战的综合性打分对接基准评估模型性能。

提出的方法

  • 模型采用序列变分图自编码器,基于学习到的潜在表征逐原子生成分子。
  • 采用离散化的内部坐标(键长、键角、二面角)以减小3D坐标空间并确保几何一致性。
  • 通过SchNet实现几何深度学习,编码配体与蛋白质的3D结构信息,并在每一步生成过程中更新相互作用特征。
  • 采用教学强制策略,按广度优先的节点添加顺序以稳定训练并确保化合价约束的有效性。
  • 通过多头注意力机制与编码局部和全局结构上下文的可学习特征向量,联合预测原子类型、化学键与3D坐标。
  • 生成的分子经RDKit优化,并通过打分对接基准评估结合亲和力、药物样性(QED)与合成可及性(SAS)

实验结果

研究问题

  • RQ1与标准生成模型相比,联合生成分子图与3D构象是否能提升从头药物设计中的结合亲和力预测?
  • RQ2将来自晶体学数据的高分辨率3D口袋结构纳入模型,对生成配体的质量有何影响?
  • RQ3结构感知生成在多大程度上能产生比无引导或基于配体的基线模型更具药物样性与更高结合亲和力的分子?
  • RQ4生成分子中常见的结构缺陷有哪些?这些缺陷如何影响打分对接性能?

主要发现

  • 与无引导基线相比,该引导生成模型将预测结合亲和力提高了8%,药物样性(QED)提高了10%。
  • 生成分子中表现最好的10%在PDB数据集中的原始配体上取得了更低(更优)的打分对接结果,尤其在小分子设计任务中表现突出。
  • 在多分子设计任务中,该引导模型的打分对接结果为-4.41 kcal/mol,优于无引导模型的-4.15 kcal/mol。
  • 该模型成功生成了结合亲和力超过部分已知配体的分子,表明其在湿实验后续研究中具有潜在应用价值。
  • 常见问题包括错误的环闭合与扭曲结构,这些缺陷对打分对接结果产生负面影响,并被Vinardo算法予以惩罚。
  • 该模型在MolGym的单分子与多分子坐标生成任务中表现优异,尤其在小分子与线性链结构中,尽管环闭合仍是挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。