[论文解读] Atomic Convolutional Networks for Predicting Protein-Ligand Binding Affinity
本论文引入 Atomic Convolutional Neural Networks (ACNNs) 来直接从3D坐标预测蛋白-配体结合亲和力,在端到端学习原子相互作用,并在 PDBBind 数据集上与基于结构的基线方法具有竞争力。
Empirical scoring functions based on either molecular force fields or cheminformatics descriptors are widely used, in conjunction with molecular docking, during the early stages of drug discovery to predict potency and binding affinity of a drug-like molecule to a given target. These models require expert-level knowledge of physical chemistry and biology to be encoded as hand-tuned parameters or features rather than allowing the underlying model to select features in a data-driven procedure. Here, we develop a general 3-dimensional spatial convolution operation for learning atomic-level chemical interactions directly from atomic coordinates and demonstrate its application to structure-based bioactivity prediction. The atomic convolutional neural network is trained to predict the experimentally determined binding affinity of a protein-ligand complex by direct calculation of the energy associated with the complex, protein, and ligand given the crystal structure of the binding pose. Non-covalent interactions present in the complex that are absent in the protein-ligand sub-structures are identified and the model learns the interaction strength associated with these features. We test our model by predicting the binding free energy of a subset of protein-ligand complexes found in the PDBBind dataset and compare with state-of-the-art cheminformatics and machine learning-based approaches. We find that all methods achieve experimental accuracy and that atomic convolutional networks either outperform or perform competitively with the cheminformatics based methods. Unlike all previous protein-ligand prediction systems, atomic convolutional networks are end-to-end and fully-differentiable. They represent a new data-driven, physics-based deep learning model paradigm that offers a strong foundation for future improvements in structure-based bioactivity prediction.
研究动机与目标
- 开发一个可学习的、端到端的3D卷积框架,用于建模蛋白-配体复合物中的原子相互作用。
- 使模型能够直接从原子坐标学习特征,而无需手工调优的描述符。
- 将热力学结合循环集成到学习目标中,以预测结合自由能。
- 在 PDBBind core 和 refined 集上对 ACNN 与既有的基于结构和基于配体的基线进行基准比较。
提出的方法
- 定义基于邻域列表的距离矩阵,用于表示局部原子环境,截断距离为 12 Å。
- 应用原子类型卷积,通过对邻居距离矩阵进行1x1卷积来扩展每种原子类型的特征。
- 使用径向池化对邻近原子之间的相互作用进行下采样和聚合,生成每个原子的特征向量。
- 将每个原子输出展平并输入到共享的原子级全连接网络,以产生每个原子的能量。
- 将每个原子的能量相加以得到总分子能量,确保尺寸可扩展性和置换不变性。
- 训练三个权重共享的仿真网络(complex、protein、ligand),并在热力学循环 Delta G_complex = G_complex - G_protein - G_ligand 的损失上进行优化,以对实验结合数据(Delta G)进行拟合。
- 基线比较包括 GRID (GRID-RF, GRID-NN)、GCNN,以及基于 ECFP 的模型,以对性能进行情景化比较。
实验结果
研究问题
- RQ1端到端的3D神经网络在从晶体结构学习与结合亲和力相关的原子相互作用方面能达到多好?
- RQ2在学习目标中加入热力学结合循环是否可以提高蛋白-配体结合自由能的预测准确性?
- RQ3在 PDBBind 的不同数据拆分(随机、分层、骨架 scaffold、时间序列 temporal)下,ACNN 与既有的基线相比如何?
- RQ4在相对较小的数据集上训练以及应用于更大规模或不同化学组成时,ACNN 的泛化与过拟合特征是什么?
主要发现
- ACNN 模型在 core 数据的测试集上实现了 MAE 低于 1 kcal/mol,显示出化学精确性潜力。
- ACNNs 在 core 数据的多种训练/测试拆分中与 GRID-RF 竞争甚至超过 GRID-RF,端到端模型具有相对良好的泛化性。
- 在 refined 数据集上,ACNN 的表现可与 GRID 模型相比, dropout 提高泛化能力。
- 基于配体的基线(GCNN, ECFP-RF/NN)泛化能力不及基于结构的方法,因为缺乏蛋白质结构特征。
- ACNN 展现出强潜力,但在 core 集上出现过拟合信号,表明需要更多数据或正则化;在更大、更高质量的数据集上的完整训练仍具有挑战性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。