Skip to main content
QUICK REVIEW

[论文解读] Atomic Convolutional Networks for Predicting Protein-Ligand Binding Affinity

Joseph Gomes, Bharath Ramsundar|arXiv (Cornell University)|Mar 30, 2017
Computational Drug Discovery Methods参考文献 28被引用 98
一句话总结

本文提出一个端到端的 3D 原子卷积神经网络(ACNN),从坐标中学习原子级相互作用,以预测蛋白-配体结合亲和力,在 PDBBind 数据集上与基线相比竞争力强,甚至优于基线。

ABSTRACT

Empirical scoring functions based on either molecular force fields or cheminformatics descriptors are widely used, in conjunction with molecular docking, during the early stages of drug discovery to predict potency and binding affinity of a drug-like molecule to a given target. These models require expert-level knowledge of physical chemistry and biology to be encoded as hand-tuned parameters or features rather than allowing the underlying model to select features in a data-driven procedure. Here, we develop a general 3-dimensional spatial convolution operation for learning atomic-level chemical interactions directly from atomic coordinates and demonstrate its application to structure-based bioactivity prediction. The atomic convolutional neural network is trained to predict the experimentally determined binding affinity of a protein-ligand complex by direct calculation of the energy associated with the complex, protein, and ligand given the crystal structure of the binding pose. Non-covalent interactions present in the complex that are absent in the protein-ligand sub-structures are identified and the model learns the interaction strength associated with these features. We test our model by predicting the binding free energy of a subset of protein-ligand complexes found in the PDBBind dataset and compare with state-of-the-art cheminformatics and machine learning-based approaches. We find that all methods achieve experimental accuracy and that atomic convolutional networks either outperform or perform competitively with the cheminformatics based methods. Unlike all previous protein-ligand prediction systems, atomic convolutional networks are end-to-end and fully-differentiable. They represent a new data-driven, physics-based deep learning model paradigm that offers a strong foundation for future improvements in structure-based bioactivity prediction.

研究动机与目标

  • 在药物发现中不依赖手工调谐特征来实现准确的结合亲和力预测的动机。
  • 开发一个可微分的、受物理启发的模型,从坐标中学习原子相互作用。
  • 在 PDBBind 上对比结构基和配体基线,展示 ACNN。
  • 显示该方法对更大系统的泛化能力并保持有竞争力的性能。

提出的方法

  • 引入原子卷积运算:原子类型卷积和径向池化。
  • 构建基于邻居表的距离矩阵以在截断距离(12 Å)内捕获局部三维环境。
  • 堆叠 ACNN 层以产生每个原子能量并对总分子能量求和,以实现尺寸可扩展的预测。
  • 将热力学结合循环与三个权重共享副本(复合物、蛋白质、配体)整合起来,以预测 ΔG_complex。
  • 使用 ADAM 端到端训练,100 个 epoch,在 PDBBind core/refined 集上使用随机、分层、 scaffold、时间分割。
  • 将 ACNN 与 GRID 基线(GRID-RF、GRID-NN)、图卷积(GCNN)和基于 ECFP 的基线进行比较。

实验结果

研究问题

  • RQ1一个 3D 的端到端可微分神经网络能直接从坐标学习原子级相互作用,以预测蛋白-配体复合物的结合自由能(ΔG)吗?
  • RQ2在不同数据分割(随机、分层、 scaffold、时间分割)下,ACNN 与现有最先进的结构基础和配体基础方法在 PDBBind 上的性能有何差异?
  • RQ3ACNN 是否能泛化到更大系统并在晶体结构的数据噪声下仍保持化学准确性?
  • RQ4正则化(如 dropout)和数据集质量对 ACNN 在训练/测试分割上的泛化有何影响?

主要发现

  • ACNN 在核心数据的测试集上平均绝对误差小于 1 kcal/mol,在不同分割下的 Pearson R^2 与 GRID-RF 相比具有可比或更好的表现。
  • 在 refined 数据集上,ACNN 的表现与 GRID 模型相当,端到端训练表现出良好的泛化;dropout 能提高测试性能。
  • 配体基础的基线(GCNN、基于 ECFP)在结构感知的分割上一般化较差,因为缺乏蛋白质结构信息, scaffold 分割除外。
  • ACNN 展示了用于结构基础生物活性预测的全可微分、端到端学习表示的潜力,并可扩展到更大系统。
  • 作者承认对数据质量和正则化的敏感性,指出核心数据集上的过拟合以及使用低质量全 PDBBind 数据时的性能下降。
  • 他们建议添加更高质量的结构和多种配体构象,以提高跨数据集的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。