Skip to main content
QUICK REVIEW

[论文解读] Accurate Chemistry Collection: Coupled cluster atomization energies for broad chemical space

Sebastian Ehlert, Jan Hermann|ArXiv.org|Jun 17, 2025
Machine Learning in Materials Science被引用 3
一句话总结

该论文提出 MSR-ACC/TAE25,一个覆盖到氩的广域化学空间的 76,879 条总原子化能数据集,基于 CCSD(T)/CBS,旨在实现数据驱动热化学方法的亚化学精度。

ABSTRACT

Accurate thermochemical data with sub-chemical accuracy (within 1 kcal mol$^{-1}$ of the empirical ground truth) are essential for advancing computational chemistry methods. However, existing datasets that reach this level of accuracy remain limited in size or scope. This hinders the development of data-driven methods with predictive accuracy across the broad chemical space of closed-shell, neutral molecules. Here we present Microsoft Research Accurate Chemistry Collection (MSR-ACC) and its first release, MSR-ACC/TAE25, comprising 73,040 total atomization energies at the CCSD(T)/CBS level obtained with the W1-F12 thermochemical protocol. The dataset is constructed to exhaustively cover the chemical space of closed-shell, charge-neutral, covalently bound equilibrium molecular structures containing up to 5 non-hydrogen atoms drawn from elements up to argon and lacking significant multireference character. The dataset and its canonical train and validation splits are openly available on Zenodo in the QCSchema format under the CDLA Permissive 2.0 license. This first release of MSR-ACC enables data-driven approaches for developing predictive computational chemistry methods with unprecedented accuracy and scope.

研究动机与目标

  • 提供 sub-chemical-accuracy 的 TAE 数据以基准测试和训练计算方法。
  • 对到氩为止的元素在化学空间中进行无偏地穷尽覆盖。
  • 使数据驱动方法(ML、DFT、半经验)在前所未有的范围和精度上成为可能。
  • 筛除具有显著多参考特征或基态为三重态的体系,以确保基于 CCSD(T) 的标注。

提出的方法

  • 使用三种图生成策略(组合枚举、度序列采样、基于自回归 GPT-2 的模型)为最多五个非氢原子生成穷尽的分子图。
  • 通过多步协议优化结构:UFF → GFN2-xTB 取样 → r2SCAN-3c → B3LYP-D3(BJ)/def2-TZVPP。
  • 在 W1-F12 CCSD(T)/CBS 水平对 TAE 进行标注,HF 外推到 CBS、CCSD-F12 能量,以及 (T) 校正。
  • 应用筛选标准:排除 %TAE[(T)] > 6% 并且 S0–T1 间隙为正值的体系,以确保单参考性。
  • 以 Zenodo 的 QCSchema 格式提供数据记录,并附加包括 W1-F12 TAE 成分的额外信息,供使用。

实验结果

研究问题

  • RQ1如何在 CCSD(T) 水平精度下实现对到氩的广泛、无偏化的化学空间覆盖以获得 TAE?
  • RQ2存在显著后 CCSD(T) 贡献的分子比例与特征是什么,如何确保可靠标注?
  • RQ3一个大规模、公开可获取的 TAE 数据集是否能够在 diverse chemistries 下推动 ML 和 DFA 方法的稳健发展,达到亚化学精度?
  • RQ4哪些质量控制(例如单态-三重态间隙、多参考诊断)能有效过滤有问题的物种,同时不排除有效的单参考体系?

主要发现

  • MSR-ACC/TAE25 包含 76,879 条带电中性闭壳 TAE,通过 W1-F12 协议在 CCSD(T)/CBS 水平标注。
  • 数据集覆盖到氩,含最多五个非氢原子,且并非被非动态相关支配。
  • 使用 %TAE[(T)]>6% 和正值的 S0–T1 间隙进行筛选,排除多参考/含三重态的体系,以确保单参考标注。
  • W1-F12 的 TAE 展现了 HF、CCSD、(T) 与 CV 成分的预期分布,TAE 值在广泛范围内变化。
  • 数据记录以训练/验证分割发布,并附带用于机器学习应用的 W1-F12 能量成分。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。