Skip to main content
QUICK REVIEW

[논문 리뷰] Accurate Chemistry Collection: Coupled cluster atomization energies for broad chemical space

Sebastian Ehlert, Jan Hermann|ArXiv.org|2025. 06. 17.
Machine Learning in Materials Science인용 수 3
한 줄 요약

본 논문은 MSR-ACC/TAE25를 제시하며, 아르곤까지의 광범위한 화학 공간을 포괄하는 76,879개의 총 분해에너지(TAE)를 CCSD(T)/CBS 기반의 대규모 데이터세트로 제시하고, 데이터 기반 열화학 방법을 sub-화학적 정확도로 가능하게 하기 위해 만들어졌다.

ABSTRACT

Accurate thermochemical data with sub-chemical accuracy (within 1 kcal mol$^{-1}$ of the empirical ground truth) are essential for advancing computational chemistry methods. However, existing datasets that reach this level of accuracy remain limited in size or scope. This hinders the development of data-driven methods with predictive accuracy across the broad chemical space of closed-shell, neutral molecules. Here we present Microsoft Research Accurate Chemistry Collection (MSR-ACC) and its first release, MSR-ACC/TAE25, comprising 73,040 total atomization energies at the CCSD(T)/CBS level obtained with the W1-F12 thermochemical protocol. The dataset is constructed to exhaustively cover the chemical space of closed-shell, charge-neutral, covalently bound equilibrium molecular structures containing up to 5 non-hydrogen atoms drawn from elements up to argon and lacking significant multireference character. The dataset and its canonical train and validation splits are openly available on Zenodo in the QCSchema format under the CDLA Permissive 2.0 license. This first release of MSR-ACC enables data-driven approaches for developing predictive computational chemistry methods with unprecedented accuracy and scope.

연구 동기 및 목표

  • 계산 방법을 벤치마크하고 학습시키기 위한 서브-화학적 정확도 TAE 데이터를 제공한다.
  • 일반적인 부분공간에 편향되지 않고 아르곤까지의 원소에 대한 화학 공간을 포괄적으로 다룬다.
  • 전례 없는 범위와 정확도로 데이터 기반 접근법(ML, DFT, 준-경험적 방법)을 가능하게 한다.
  • CCSD(T)-기반 표기에 대한 신뢰성을 보장하기 위해 중대 다중참조 특성이나 트립렛 기저상태가 강하게 나타나는 시스템을 필터링한다.

제안 방법

  • 비수소 원자 최대 다섯 개까지의 포괄적인 분자 그래프를 세 가지 그래프 생성 전략(조합 열거, 차수 수열 샘플링, 그리고 자기회귀 GPT-2 기반 모델)을 사용하여 생성한다.
  • 구조 최적화를 다단계 프로토콜로 수행: UFF → GFN2-xTB 샘플링 → r2SCAN-3c → B3LYP-D3(BJ)/def2-TZVPP.
  • W1-F12 CCSD(T)/CBS 수준에서 Hartree–Fock CBS 추정, CCSD-F12 에너지 및 (T) 보정으로 TAE에 라벨을 표기한다.
  • 필터링 기준 적용: 단일참조 특성을 보장하기 위해 %TAE[(T)] > 6% 및 S0–T1 간격이 양수인 경우를 제외한다.
  • Zenodo에 QCSchema 형식으로 데이터 기록을 제공하고 W1-F12 TAE 구성 요소를 포함하는 추가 정보를 제공한다.

실험 결과

연구 질문

  • RQ1CCSD(T)-수준의 정확도로 아르곤까지의 TAEs에 대해 편향 없는 광범위한 화학 공간 커버리지를 어떻게 달성할 수 있는가?
  • RQ2CCSD(T) 이후 기여가 큰 분자의 비율과 특성은 무엇이며 신뢰할 수 있는 표기를 어떻게 보장할 수 있는가?
  • RQ3크고 공개적으로 접근 가능한 대규모 TAE 데이터세트가 다양한 화학에서 서브-화학 정확도를 갖춘 ML 및 DFA 방법의 강건한 개발을 가능하게 할 수 있는가?
  • RQ4싱글턴-트리플렛 간격, 다중참조 진단 등과 같은 품질 관리가 문제 있는 종을 효과적으로 걸러내면서도 유효한 단일 참조 시스템을 배제하지 않는가?

주요 결과

  • MSR-ACC/TAE25는 W1-F12 프로토콜을 통해 CCSD(T)/CBS로 라벨링된 76,879개의 전하 중성 폐껍질 TAE를 포함한다.
  • 데이터세트는 비수소 원자를 최대 다섯 개까지 포함하는 아르곤까지의 원소를 다루며 비동적 상관에 의해 지배되지 않는다.
  • %TAE[(T)]>6% 및 양의 S0–T1 간격을 이용한 필터링은 다중참조/트립렛을 포함하는 종을 제거하여 단일참조 표기를 보장한다.
  • W1-F12 TAE는 HF, CCSD, (T), CV 기여 간의 예상 구성 분포를 보이며, TAE 값은 광범위한 스펙트럼에 걸쳐 분포한다.
  • 데이터 기록은 ML 응용을 위한 학습/검증 분할 및 보조 W1-F12 에너지 구성 요소와 함께 공개된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.