Skip to main content
QUICK REVIEW

[论文解读] DASH: Dynamic Attention-Based Substructure Hierarchy for Partial Charge Assignment

Marc Lehner, Paul Katzberger|arXiv (Cornell University)|May 25, 2023
Machine Learning in Materials Science参考文献 2被引用 2
一句话总结

DASH 引入了一种动态的、基于注意力的子结构层次结构,从图神经网络(GNN)中提取可解释的部分电荷分配,而无需依赖复杂的机器学习库。它在部分电荷预测中达到了 GNN 水平的准确性,同时比传统的量子化学方法(如 MBIS 和 RESP)快 100–10,000 倍,并通过带有误差条的人类可读树结构实现完全可解释性。

ABSTRACT

We present a robust and computationally efficient approach for assigning partial charges of atoms in molecules. The method is based on a hierarchical tree constructed from attention values extracted from a graph neural network (GNN), which was trained to predict atomic partial charges from accurate quantum-mechanical (QM) calculations. The resulting dynamic attention-based substructure hierarchy (DASH) approach provides fast assignment of partial charges with the same accuracy as the GNN itself, is software-independent, and can easily be integrated in existing parametrization pipelines as shown for the Open force field (OpenFF). The implementation of the DASH workflow, the final DASH tree, and the training set are available as open source / open data from public repositories.

研究动机与目标

  • 开发一种用于分子中原子部分电荷分配的快速、准确且可解释的方法。
  • 克服黑箱机器学习模型的局限性,包括对不稳定库的依赖以及缺乏可解释性。
  • 创建一种与软件无关的框架,可轻松集成到现有的力场参数化流程中。
  • 实现用户可编辑、物理解释合理的部分电荷,同时提供量化的不确定性估计。
  • 为大规模应用(如虚拟筛选和酶底物预测)提供可扩展的解决方案。

提出的方法

  • 在 393,692 种独特的分子上训练图神经网络(GNN),其参考电荷来自 TPSSh/def2-TZVP 量子化学方法的 MBIS 结果。
  • 提取 GNN 的注意力值以构建动态子结构层次结构(DASH 树),其中原子类型按其对预测的注意力贡献进行排序。
  • 通过基于注意力分数递归分组原子来构建 DASH 树结构,最大深度和注意力阈值等超参数在训练过程中进行优化。
  • 通过遍历 DASH 树并聚合子结构的贡献来分配部分电荷,随后进行后处理归一化和对称化以保证物理一致性。
  • 该方法仅依赖 RDKit 进行分子输入和特征提取,确保长期的软件稳定性。
  • 最终的 DASH 模型以人类可读的树结构存储,从而实现完全可解释性,并支持对分配结果的手动调整。

实验结果

研究问题

  • RQ1基于 GNN 的注意力层次结构能否在显著提升速度的同时,产生与原始 GNN 相当准确的部分电荷分配?
  • RQ2基于注意力的子结构层次结构能否提供可解释的、人类可读的部分电荷分配,并附带量化的不确定性?
  • RQ3与 AM1-BCC、RESP 和 MBIS 等成熟方法相比,DASH 方法在速度和准确性方面表现如何?
  • RQ4DASH 框架能否摆脱快速演化的机器学习库依赖,同时保持高性能?
  • RQ5用户在多大程度上可以手动修改 DASH 的分配结果以满足特定应用需求?

主要发现

  • DASH 在部分电荷预测中的准确性与底层 GNN 相当,其均方根误差(RMSE)接近 MBIS 参考电荷的水平。
  • DASH 比 MBIS 和 RESP 快 100–10,000 倍,单分子计算时间在 16 核 CPU 上仅为 3.87 秒,而 MBIS 需要 8,490 秒。
  • 该方法比 AM1-BCC 快 200 倍,比 RESP 快 10,000 倍,同时保持了高准确性。
  • DASH 通过分层树结构提供可解释的、人类可读的部分电荷分配,使用户能够检查并修改单个分配结果。
  • DASH 模型与软件无关,仅依赖稳定的 RDKit 功能,避免了对易变的机器学习库(如 PyTorch)的依赖。
  • DASH 树支持误差条估计,并通过后处理归一化和对称化保证物理一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。