[논문 리뷰] Quantum mechanical dataset of 836k neutral closed shell molecules with upto 5 heavy atoms from CNOFSiPSClBr
본 연구는 VQM24 데이터세트를 제시합니다: 광범위한 QM 특성과 함께 835,947개의 수렴된 DFT 구조(무거 원자 최대 다섯) 및 10,793분자 부분집합에 대한 DMC 에너지를 포함하며, 광범위한 화학 공간을 포괄합니다.
We introduce the Vector-QM24 (VQM24) dataset comprehensively covering all possible neutral closed-shell small organic and inorganic molecules with up to five heavy ( extit{p}-block) atoms: C, N, O, F, Si, P, S, Cl, Br. All valid stoichiometries, Lewis-rule-consistent graphs, and stable conformers (identified via GFN2-xTB) were enumerated combinatorially, yielding 577k conformational isomers spanning 258k constitutional isomers and 5,599 unique stoichiometries. DFT ($ω$B97X-D3/cc-pVDZ) optimizations were performed for all, and diffusion quantum Monte Carlo (DMC@PBE0(ccECP/cc-pVQZ)) energies are provided for 10,793 lowest-energy conformers with up to 4 heavy atoms. VQM24 includes structures, vibrational modes, rotational constants, thermodynamic properties (Gibbs free energies, enthalpies, ZPVEs, entropies, heat capacities), and electronic properties such as atomization, electron interaction, exchange-correlation, dispersion energies, multipole moments (dipole to hexadecapole), alchemical potentials, Mulliken charges, and wavefunctions. Machine learning models of atomization energies on this dataset reveal significantly higher complexity than QM9, with none achieving chemical accuracy. VQM24 offers a rigorous, high-fidelity benchmark for evaluating quantum machine learning models.
연구 동기 및 목표
- 무거 원자 최대 다섯까지의 조합화된 화학식에서 중성 닫힌 껍질 작은 분자와 그들의 이성질체를 체계적으로 포괄하는 것을 목표로 한다.
- ML 모델 학습 및 벤치마킹을 가능하게 하기 위해 최첨단 양자역학 속성과 파동함수들을 제공한다.
- DFT 수준 데이터와 고정밀 DMC 에너지를 포함한 대규모 다양 데이터세트를 생성하고 부분집합으로 공유한다.
제안 방법
- C, N, O, F, Si, P, S, Cl, Br로부터 무거 원자 최대 다섯까지의 모든 조합 가능한 합식(sum formulas)을 생성한다.
- SURGE로 분자 그래프를 구성하고 RDKit와 MMFF94로 초기 기하를 생성한 뒤, xTB 기반 구형체 탐색과 DFT 정제(omega B97X-D3/cc-pVDZ)를 수행한다.
- PSI4로 세 번의 DFT 기하 최적화를 수행하여 최소값과 안장점을 식별한다.
- ccECP/cc-pVQZ 의사 포텐셜과 PBE0 노달 표면을 사용하여 네 무거 원자까지의 최저 차수 이성질체들에 대한 DMC 에너지를 계산한다.
- 기하, 진동 모드, 에너지, 다극 모멘트, MO 에너지, 파동함수 등 포괄적 특성 세트를 제공하고 데이터를 오픈 NPZ 포맷으로 공개한다.
- 계산 워크플로우와 데이터 접근을 Zenodo 저장소를 통해 문서화한다.

실험 결과
연구 질문
- RQ1무거 원자 최대 다섯까지의 중성 닫힌 껍질 작은 분자와 그들의 이성질체를 가용한 루이스 구조와 이성질체로 얼마나 exhaustively enumerated할 수 있는가?
- RQ2생성된 모든 화학식에서 이성질체와 최소값의 분포는 어떻게 되는가?
- RQ3이 광범위한 화학 공간을 특징짓는 QM 속성(에너지, 진동 주파수, 다극 모멘트, MO 데이터)은 무엇인가?
- RQ4대표 부분집합의 작은 분자에 대한 DMC 에너지의 정확도와 실용성은 어떠한가?
- RQ5이 데이터세트가 실재 양자 시스템에 대한 전이 가능하고 확장 가능한 ML 모델 학습을 지원할 수 있는가?
주요 결과
- 데이터세트에는 Rigorous three-pass DFT 최적화 이후 835,947개의 수렴 분자(minima)와 51,072개의 안장점(saddle points)이 포함된다.
- 이성질체 최대 다섯 개의 비수소 무거 원자에 걸쳐 구성한 258,242개의 구성 이성질체에 대해 577,705개의 이성질체 탐색 구성을 도출했다.
- 네 개의 무거 원자까지의 분자에 대해 최저 위치 이성질체에 대한 DMC 에너지가 제공되며, 이는 현재까지 보고된 QM 몬테카를로 데이터세트 중 가장 큰 규모이다.
- 분자들은 C, N, O, F, Si, P, S, Cl, Br의 중성 닫힌 껍질 조합을 포괄하고 있으며, 진동 주파수, Gibbs 자유 에너지, 엔탈피, ZPVE, 엔트로피, 열용량, 다극 모멘트, MO 에너지 및 파동함수 등 광범위한 특성을 포함한다.
- 각 수렴 구조에 대해 기하, 그래프, InChI, SMILES, 그리고 광범위한 특성 세트를 모아놓은 표준화된 열린 데이터 형식(NPZ)이 제공된다.
- 데이터는 실제 양자 시스템의 이동 가능하고 확장 가능한 ML 모델의 학습에 적합하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.