Skip to main content
QUICK REVIEW

[論文レビュー] Quantum mechanical dataset of 836k neutral closed shell molecules with upto 5 heavy atoms from CNOFSiPSClBr

Danish Khan, Anouar Benali|arXiv (Cornell University)|May 9, 2024
Inorganic Fluorides and Related Compounds被引用数 7
ひとこと要約

この研究は VQM24 データセットを提示します:835,947 の収束した DFT 構造(最大五つの重原子)と extensive QM properties、さらに DMC エネルギーを含む 10,793 分子のサブセット、広範な化学空間をカバーします。

ABSTRACT

We introduce the Vector-QM24 (VQM24) dataset comprehensively covering all possible neutral closed-shell small organic and inorganic molecules with up to five heavy ( extit{p}-block) atoms: C, N, O, F, Si, P, S, Cl, Br. All valid stoichiometries, Lewis-rule-consistent graphs, and stable conformers (identified via GFN2-xTB) were enumerated combinatorially, yielding 577k conformational isomers spanning 258k constitutional isomers and 5,599 unique stoichiometries. DFT ($ω$B97X-D3/cc-pVDZ) optimizations were performed for all, and diffusion quantum Monte Carlo (DMC@PBE0(ccECP/cc-pVQZ)) energies are provided for 10,793 lowest-energy conformers with up to 4 heavy atoms. VQM24 includes structures, vibrational modes, rotational constants, thermodynamic properties (Gibbs free energies, enthalpies, ZPVEs, entropies, heat capacities), and electronic properties such as atomization, electron interaction, exchange-correlation, dispersion energies, multipole moments (dipole to hexadecapole), alchemical potentials, Mulliken charges, and wavefunctions. Machine learning models of atomization energies on this dataset reveal significantly higher complexity than QM9, with none achieving chemical accuracy. VQM24 offers a rigorous, high-fidelity benchmark for evaluating quantum machine learning models.

研究の動機と目的

  • 中性閉殻の小分子とそのコンフォーマーを、複数組成で最大五つの重原子まで体系的に網羅することをAimとする。
  • ML モデルの訓練とベンチマークを可能にする最先端の量子力学的性質と波動関数を提供する。
  • DFT レベルのデータとサブセットの高精度 DMC エネルギーを含む、 large で diverse なデータセットを生成・共有する。

提案手法

  • C、N、O、F、Si、P、S、Cl、Br から最大五つの重原子を組み合わせた全組合せ可能な総式を生成する。
  • SURGE を用いて分子グラフを構築し、 RDKit と MMFF94 で初期幾何を生成した後、xTB に基づくコンフォマー探索と DFT の精練(omega B97X-D3/cc-pVDZ)を適用する。
  • PSI4 を用いた三段階の DFT ジオメトリ最適化を実行し、極小点と鞍点を同定する。
  • ccECP/cc-pVQZ 疎近似ポテンシャルと PBE0 ノーダル面を用いて QMCPACK で最も低い局所構造の四重重原子までの分子の DMC エネルギーを計算する。
  • 幾何、振動モード、エネルギー、双極子モーメント、MO エネルギー、波動関数などの包括的なプロパティ集合を提供し、オープン NPZ 形式でデータを提供する。
  • Zenodo リポジトリを介した計算ワークフローとデータアクセスを文書化する。
Figure 1: Workflow used to generate the VQM24 dataset. All possible stoichiometries were first calculated by choosing all combinations of up to 5 heavy atoms (non-Hydrogen) and saturating them with hydrogens to satisfy the valencies. Heavy atoms included along with their valencies are reported in Ta
Figure 1: Workflow used to generate the VQM24 dataset. All possible stoichiometries were first calculated by choosing all combinations of up to 5 heavy atoms (non-Hydrogen) and saturating them with hydrogens to satisfy the valencies. Heavy atoms included along with their valencies are reported in Ta

実験結果

リサーチクエスチョン

  • RQ1最大五つの重原子までの中性閉殻小分子とそのコンフォマーを、有効なルイス構造とコンフォマーでいかに体系的に列挙できるか?
  • RQ2生成された全組成に対するコンフォマーと minima の分布はどうなるか?
  • RQ3この広範な化学空間を特徴づける QM プロパティ(エネルギー、振動周波数、双極子モーメント、MO データ)は何か?
  • RQ4代表的なサブセットの小分子に対する DMC エネルギーの精度と実用性はどの程度か?
  • RQ5このデータセットは実際の量子系の可搬性があり、スケーラブルな ML モデルのトレーニングに寄与できるか?

主な発見

  • このデータセットには 835,947 の収束分子( minima )と、厳密な三段階 DFT 最適化後の 51,072 の鞍点が含まれる。
  • 構成異性体を越えて最大五つの非水素重原子を有する分の 258,242 の構成同型体に対して 577,705 のコンフォマー探索が得られた。
  • DMC エネルギーは、最大四つの重原子の分子の最も低い位置の 10,793 コンフォマーに対して提供され、これまでで最大の QM モンテカルロデータセットを示す。
  • 分子は中性閉殻の C, N, O, F, Si, P, S, Cl, Br の組み合わせを網羅し、振動周波数、ギブス自由エネルギー、エンタルピー、ZPVE、エントロピー、熱容量、双極子および高次多重極モーメント、MO エネルギー、波動関数などの広範なプロパティを含む。
  • 標準化されたオープンデータ形式(NPZ)は、収束した構造ごとに幾何、グラフ、InChI、SMILES、および広範なプロパティセットをまとめる。
  • データは実在の量子系の転送可能でスケーラブルな生成型 ML モデルの訓練に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。