Skip to main content
QUICK REVIEW

[论文解读] AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery

Izhar Wallach, Michael Dzamba|arXiv (Cornell University)|Oct 10, 2015
Computational Drug Discovery Methods参考文献 42被引用 529
一句话总结

AtomNet 是首个用于基于结构的生物活性预测的深度卷积神经网络,通过利用 3D 分子结构中的空间局部性和分层特征组合来预测结合亲和力。其性能优于传统对接方法,在 DUDE 基准测试中 57.8% 的靶标 AUC > 0.9,并成功识别出无已知调节剂的靶标的活性分子。

ABSTRACT

Deep convolutional neural networks comprise a subclass of deep neural networks (DNN) with a constrained architecture that leverages the spatial and temporal structure of the domain they model. Convolutional networks achieve the best predictive performance in areas such as speech and image recognition by hierarchically composing simple local features into complex models. Although DNNs have been used in drug discovery for QSAR and ligand-based bioactivity predictions, none of these models have benefited from this powerful convolutional architecture. This paper introduces AtomNet, the first structure-based, deep convolutional neural network designed to predict the bioactivity of small molecules for drug discovery applications. We demonstrate how to apply the convolutional concepts of feature locality and hierarchical composition to the modeling of bioactivity and chemical interactions. In further contrast to existing DNN techniques, we show that AtomNet's application of local convolutional filters to structural target information successfully predicts new active molecules for targets with no previously known modulators. Finally, we show that AtomNet outperforms previous docking approaches on a diverse set of benchmarks by a large margin, achieving an AUC greater than 0.9 on 57.8% of the targets in the DUDE benchmark.

研究动机与目标

  • 开发一种深度学习模型,利用配体和靶蛋白的 3D 结构信息预测分子生物活性。
  • 克服基于配体的模型依赖已知活性化合物且缺乏靶蛋白结构背景的局限性。
  • 通过在学习过程中整合靶蛋白结构,实现对无先前已知调节剂的靶标的新型活性分子预测。
  • 证明卷积神经网络能够有效建模分子结合中的局部、空间受限的化学相互作用。
  • 在 DUDE 和 ChEMBL 等标准基准测试中,超越 Smina 等成熟对接工具的性能。

提出的方法

  • AtomNet 采用 3D 卷积神经网络(3D-CNN)架构,处理表示配体和靶蛋白原子空间排列的 3D 网格。
  • 模型使用局部、权重共享的滤波器检测邻近化学特征(如氢键或 π-堆叠),实现参数共享并提升泛化能力。
  • 局部特征的分层组合使网络能够在多层中学习分子相互作用的更复杂表征。
  • 输入数据编码为 3D 体素网格,每个体素表示原子类型、部分电荷和空间坐标,实现空间感知能力。
  • 网络采用端到端训练方式,通过多任务学习设置和二元交叉熵损失函数,预测每个配体-靶标对的结合亲和力(活性/非活性)。
  • 通过识别滤波器激活最强的输入区域,实现滤波器可视化,从而在无需直接可视化滤波器的情况下解释学习到的化学功能。

实验结果

研究问题

  • RQ1深度卷积神经网络能否有效建模蛋白质-配体结合中分子相互作用的空间局部特性?
  • RQ2在靶蛋白的 3D 结构信息中引入目标蛋白结构,能否提升对无已知调节剂的新型靶标的生物活性预测性能?
  • RQ33D-CNN 架构在标准基准测试中预测配体结合亲和力时,是否优于传统对接工具?
  • RQ4模型能否通过滤波器激活模式自主发现化学上有意义的特征(如功能基团)?
  • RQ5AtomNet 在无先前已知活性配体的靶标上泛化能力如何?

主要发现

  • 在 DUDE 基准测试中,AtomNet 在 57.8% 的靶标上实现了 AUC > 0.9,显著优于以往的对接方法。
  • 在 DUDE-102 基准测试中,AtomNet 的平均 AUC 为 0.895,平均 logAUC 为 0.385,而 DOCK3.7 的对应值为 0.696 和 0.174。
  • AtomNet 成功预测了无已知调节剂的靶标的活性分子,证明其在数据稀缺场景下的泛化能力。
  • 滤波器可视化显示,学习到的滤波器能检测特定化学功能(如磺酰基/磺酰胺基团),且无需预先了解化学知识。
  • 在所有基准测试中,AtomNet 均优于 Smina:在 ChEMBL-20 PMD 基准中,其 AUC 阈值达到 0.3 的靶标有 27 个(Smina 为 16 个)。
  • 在 ChEMBL-20 非活性物基准中,AtomNet 从 149 个靶标中识别出 107 个调整后 logAUC ≥ 0.3 的活性化合物,而 Smina 仅识别出 35 个。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。