Skip to main content
QUICK REVIEW

[论文解读] Deep Neural Network Computes Electron Densities and Energies of a Large Set of Organic Molecules Faster than Density Functional Theory (DFT)

Anton V. Sinitskiy, Vijay S. Pande|arXiv (Cornell University)|Sep 8, 2018
Machine Learning in Materials Science参考文献 61被引用 37
一句话总结

该论文提出了一种深度神经网络(DNN),仅使用低成本的HF/cc-VDZ初始电子密度作为输入,即可将有机分子的电子密度和能量预测速度提升至传统密度泛函理论(DFT)的30倍以上。该DNN能够学习校正基组不完整性和电子相关效应,能量预测精度达到约1 kcal/mol,同时准确再现孤对电子最小值和芳香环形状等复杂电子结构特征。

ABSTRACT

Density functional theory (DFT) is one of the main methods in Quantum Chemistry that offers an attractive trade off between the cost and accuracy of quantum chemical computations. The electron density plays a key role in DFT. In this work, we explore whether machine learning - more specifically, deep neural networks (DNNs) - can be trained to predict electron densities faster than DFT. First, we choose a practically efficient combination of a DFT functional and a basis set (PBE0/pcS-3) and use it to generate a database of DFT solutions for more than 133,000 organic molecules from a previously published database QM9. Next, we train a DNN to predict electron densities and energies of such molecules. The only input to the DNN is an approximate electron density computed with a cheap quantum chemical method in a small basis set (HF/cc-VDZ). We demonstrate that the DNN successfully learns differences in the electron densities arising both from electron correlation and small basis set artifacts in the HF computations. All qualitative features in density differences, including local minima on lone pairs, local maxima on nuclei, toroidal shapes around C-H and C-C bonds, complex shapes around aromatic and cyclopropane rings and CN group, etc. are captured by the DNN. Accuracy of energy predictions by the DNN is ~ 1 kcal/mol, on par with other models reported in the literature, while those models do not predict the electron density. Computations with the DNN, including HF computations, take much less time that DFT computations (by a factor of ~20-30 for most QM9 molecules in the current version, and it is clear how it could be further improved).

研究动机与目标

  • 加速大规模有机分子的电子密度和能量计算,超越传统DFT的速度限制。
  • 开发一种机器学习模型,校正低成本HF计算中的基组不完整性和电子相关误差。
  • 通过用快速的DNN推理替代计算成本高昂的DFT步骤,实现实用的高通量量子化学分析。
  • 在预测的电子密度中保留孤对电子最小值和成键模式等定性电子结构特征。
  • 在保持与最先进模型相当的精度的同时,实现全电子密度的预测,而不仅限于能量。

提出的方法

  • 在QM9数据集中133,000个有机分子的数据库上训练深度神经网络,以PBE0/pcS-3 DFT结果作为真实值。
  • DNN以小基组cc-VDZ进行的哈特ree-fock(HF)计算得到的近似电子密度作为输入。
  • 网络学习将低精度的HF密度映射为高精度的类似DFT的密度,通过捕捉相关效应和基组影响。
  • 模型端到端训练,同时预测电子密度和总能量。
  • 网络架构设计用于保留电子密度的空间和拓扑特征,包括局部极小值和极大值。
  • DNN推理速度显著快于DFT,对大多数QM9分子实现约20–30倍的加速。

实验结果

研究问题

  • RQ1深度神经网络能否在速度上超越DFT,准确预测有机分子的电子密度和总能量?
  • RQ2DNN能否仅使用低成本HF密度输入,有效校正基组不完整性和电子相关误差?
  • RQ3DNN在预测的电子密度中是否能保留孤对电子最小值和成键模式等复杂电子结构特征?
  • RQ4能量预测的精度与DFT相比如何?与其他机器学习模型相比表现如何?
  • RQ5DNN在多大程度上能够加速大规模分子数据集的高通量量子化学分析?

主要发现

  • DNN的能量预测精度达到约1 kcal/mol,与其它最先进模型相当。
  • 该模型成功捕捉了孤对电子上的局部极小值、原子核上的局部极大值,以及C–H和C–C键周围的环形密度分布等复杂电子特征。
  • 电子密度预测准确再现了芳香环、环丙烷和CN基团周围的复杂形状,保真度高。
  • 对大多数QM9分子,DNN推理速度比DFT快20–30倍,且具备进一步提速的潜力。
  • 该模型在包括共轭体系和应变体系在内的多样化有机分子结构上表现出良好的泛化能力。
  • DNN能够从单一低成本输入中,同时学习校正基组截断和电子相关效应。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。