Skip to main content
QUICK REVIEW

[论文解读] Quantum mechanical dataset of 836k neutral closed shell molecules with upto 5 heavy atoms from CNOFSiPSClBr

Danish Khan, Anouar Benali|arXiv (Cornell University)|May 9, 2024
Inorganic Fluorides and Related Compounds被引用 7
一句话总结

本工作提出了 VQM24 数据集:835,947 个收敛的 DFT 结构(最多五个重原子),并包含大量 QM 属性,以及用于 10,793 分子子集的 DMC 能量,覆盖广泛的化学空间。

ABSTRACT

We introduce the Vector-QM24 (VQM24) dataset comprehensively covering all possible neutral closed-shell small organic and inorganic molecules with up to five heavy ( extit{p}-block) atoms: C, N, O, F, Si, P, S, Cl, Br. All valid stoichiometries, Lewis-rule-consistent graphs, and stable conformers (identified via GFN2-xTB) were enumerated combinatorially, yielding 577k conformational isomers spanning 258k constitutional isomers and 5,599 unique stoichiometries. DFT ($ω$B97X-D3/cc-pVDZ) optimizations were performed for all, and diffusion quantum Monte Carlo (DMC@PBE0(ccECP/cc-pVQZ)) energies are provided for 10,793 lowest-energy conformers with up to 4 heavy atoms. VQM24 includes structures, vibrational modes, rotational constants, thermodynamic properties (Gibbs free energies, enthalpies, ZPVEs, entropies, heat capacities), and electronic properties such as atomization, electron interaction, exchange-correlation, dispersion energies, multipole moments (dipole to hexadecapole), alchemical potentials, Mulliken charges, and wavefunctions. Machine learning models of atomization energies on this dataset reveal significantly higher complexity than QM9, with none achieving chemical accuracy. VQM24 offers a rigorous, high-fidelity benchmark for evaluating quantum machine learning models.

研究动机与目标

  • 旨在系统性覆盖到五个重原子组合下的中性闭壳小分子及其构象体。
  • 提供最先进的量子力学性质和波函数,以支持机器学习模型的训练和基准测试。
  • 生成并分享一个大型、多样化的数据集,包括 DFT 级数据以及子集的高精度 DMC 能量。

提出的方法

  • 从 C、N、O、F、Si、P、S、Cl、Br 中,生成最多五个重原子可组合的所有可能的化学式。
  • 使用 SURGE 构建分子图,用 RDKit 和 MMFF94 生成初始几何构型,随后进行基于 xTB 的构象搜索和 DFT 精化(omega B97X-D3/cc-pVDZ)。
  • 使用 PSI4 进行三遍 DFT 几何优化,以识别极小值和鞍点。
  • 使用 QMCPACK,采用 ccECP/cc-pVQZ 赝势和 PBE0 节点面,对最多四个重原子的最低能构象计算扩散蒙特卡洛能量(DMC)。
  • 提供全面的属性集(几何、振动模、能量、多极矩、分子轨道能量、波函数),并以开放的 NPZ 格式提供数据。
  • 通过 Zenodo 仓库文档化计算工作流和数据访问。
Figure 1: Workflow used to generate the VQM24 dataset. All possible stoichiometries were first calculated by choosing all combinations of up to 5 heavy atoms (non-Hydrogen) and saturating them with hydrogens to satisfy the valencies. Heavy atoms included along with their valencies are reported in Ta
Figure 1: Workflow used to generate the VQM24 dataset. All possible stoichiometries were first calculated by choosing all combinations of up to 5 heavy atoms (non-Hydrogen) and saturating them with hydrogens to satisfy the valencies. Heavy atoms included along with their valencies are reported in Ta

实验结果

研究问题

  • RQ1在具有有效路易斯结构和构象的前提下,最多五个重原子数量的中性闭壳小分子可以被多大程度地穷举?
  • RQ2所有生成的计量化学式中,构象体和极小值的分布如何?
  • RQ3哪些 QM 属性(能量、振动频率、多极矩、MO 数据)表征这广泛的化学空间?
  • RQ4对代表性的小分子子集,DMC 能量的准确性和实用性如何?
  • RQ5该数据集能否支持训练可迁移、可扩展的面向真实量子系统的机器学习模型?

主要发现

  • 在经过严格的三遍 DFT 优化后,该数据集包含 835,947 个收敛分子(极小值)和 51,072 个鞍点。
  • 构象搜索产生了 577,705 个构象,覆盖多达五个非氢重原子的 258,242 种组成同分异构体。
  • 为最多四个重原子分子中最低能构象的 10,793 个提供了 DMC 能量,代表有史以来最大的 QM 蒙特卡洛数据集。
  • 分子覆盖 C、N、O、F、Si、P、S、Cl、Br 的中性闭壳组合,并包含大量属性,如振动频率、吉布斯自由能、焓、ZPVE、熵、热容、偶极矩及更高的多极矩、MO 能量和波函数。
  • 标准化的开放数据格式(NPZ)汇集每个收敛结构的几何、图、InChI、SMILES 以及广泛的属性集。
  • 数据适用于训练可迁移、可扩展和生成式的真实量子系统的机器学习模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。