[論文レビュー] Accurate Chemistry Collection: Coupled cluster atomization energies for broad chemical space
本論文はMSR-ACC/TAE25を提示する。これは、アルゴンまでの広範な化学空間をカバーするCCSD(T)/CBSベースの総計76,879個の総原子化エネルギー(TAE)データセットで、データ駆動型熱化学法のサブ化学的精度を実現することを目的としている。
Accurate thermochemical data with sub-chemical accuracy (within 1 kcal mol$^{-1}$ of the empirical ground truth) are essential for advancing computational chemistry methods. However, existing datasets that reach this level of accuracy remain limited in size or scope. This hinders the development of data-driven methods with predictive accuracy across the broad chemical space of closed-shell, neutral molecules. Here we present Microsoft Research Accurate Chemistry Collection (MSR-ACC) and its first release, MSR-ACC/TAE25, comprising 73,040 total atomization energies at the CCSD(T)/CBS level obtained with the W1-F12 thermochemical protocol. The dataset is constructed to exhaustively cover the chemical space of closed-shell, charge-neutral, covalently bound equilibrium molecular structures containing up to 5 non-hydrogen atoms drawn from elements up to argon and lacking significant multireference character. The dataset and its canonical train and validation splits are openly available on Zenodo in the QCSchema format under the CDLA Permissive 2.0 license. This first release of MSR-ACC enables data-driven approaches for developing predictive computational chemistry methods with unprecedented accuracy and scope.
研究の動機と目的
- 計算手法のベンチマークと訓練に用いるサブ化学的精度のTAEデータを提供する。
- 共通のサブ空間に偏ることなく、アルゴンまでの元素を含む化学空間を網羅的にカバーする。
- データ駆動型アプローチ(ML、DFT、半経験的手法)を前例のない範囲と精度で可能にする。
- CCSD(T)ベースのラベリングを保証するため、顕著な多参照性を持つ系や三重項基底状態を有する系をフィルタリングする。
提案手法
- 三つのグラフ生成戦略(組合せ列挙、次数列サンプリング、自動回帰GPT-2ベースモデル)を用いて、非水素原子が最大五個までの分子グラフを網羅的に生成する。
- 構造を多段階プロトコルで最適化する:UFF → GFN2-xTBサンプリング → r2SCAN-3c → B3LYP-D3(BJ)/def2-TZVPP。
- W1-F12 CCSD(T)/CBSレベルでTAEsをラベル付け。CBSへ外挿されたHartree–Fock、CCSD-F12エネルギー、および(T)補正を含む。
- フィルタ条件を適用:%TAE[(T)]>6%を除外し、S0–T1ギャップが正の値になる系を排除して単一参照性を保証する。
- 機械学習アプリケーション向けに、ZenodoでQCSchemaフォーマットのデータレコードとW1-F12のTAE成分を補足情報として提供する。
実験結果
リサーチクエスチョン
- RQ1アルゴリズムは、CCSD(T)レベルの精度でアルゴンまでのTAEを含む広く偏りのない化学空間をどのように実現できるか?
- RQ2顕著なCCSD(T)以降の寄与を有する分子の割合と特性はどのようで、信頼できるラベリングをどのように保証するのか?
- RQ3大規模で公開可能なTAEデータセットは、 diverseな化学分野でサブ化学的精度を持つMLおよびDFA手法の堅牢な開発を可能にするか?
- RQ4品質管理(例:singlet-tripletギャップ、マルチリファレンス診断)は、妥当な単一参照系を除外せずに問題のある種を効果的にフィルタリングできるのか?
主な発見
- MSR-ACC/TAE25には、W1-F12プロトコルを介してCCSD(T)/CBSでラベル付けされた総計76,879個の電荷中性・閉殻TAEが含まれている。
- データセットはアルゴンまでの元素を含み、非水素原子が最大五個、非動的相関に支配されていない。
- %TAE[(T)]>6%および正のS0–T1ギャップを用いたフィルタリングにより、多参照/三重項を含む系を除外し、単一参照ラベリングを保証している。
- W1-F12 TAEsはHF、CCSD、(T)、CV成分の分布が期待通りで、TAE値は広いスペクトラムにまたがっている。
- データレコードは機械学習アプリケーション向けに、トレーニング/検証分割と補足のW1-F12エネルギー成分と共に公開される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。