Skip to main content
QUICK REVIEW

[论文解读] Alchemy: A Quantum Chemistry Dataset for Benchmarking AI Models

Guangyong Chen, Pengfei Chen|arXiv (Cornell University)|Jun 22, 2019
Machine Learning in Materials Science参考文献 37被引用 64
一句话总结

Alchemy 引入了一个包含 119,487 种有机分子、具备 12 种量子力学性质的大型量子化学数据集,用于基准测试 ML 模型,并在其上对多种 GNN 架构进行了基准测试。

ABSTRACT

We introduce a new molecular dataset, named Alchemy, for developing machine learning models useful in chemistry and material science. As of June 20th 2019, the dataset comprises of 12 quantum mechanical properties of 119,487 organic molecules with up to 14 heavy atoms, sampled from the GDB MedChem database. The Alchemy dataset expands the volume and diversity of existing molecular datasets. Our extensive benchmarks of the state-of-the-art graph neural network models on Alchemy clearly manifest the usefulness of new data in validating and developing machine learning models for chemistry and material science. We further launch a contest to attract attentions from researchers in the related fields. More details can be found on the contest website \footnote{https://alchemy.tencent.com}. At the time of benchamrking experiment, we have generated 119,487 molecules in our Alchemy dataset. More molecular samples are generated since then. Hence, we provide a list of molecules used in the reported benchmarks.

研究动机与目标

  • 动机:需要一个比 MoleculeNet 和 QM 系列更大、更多样的量子化学数据集。
  • 创建一个聚焦药物化学的 QM 数据集,具有更广泛的原子多样性和规模。
  • 提供最先进的图神经网络在量子性质预测任务上的基准测试。

提出的方法

  • 编制一个新的分子数据集(Alchemy),包含来自 GDB MedChem 的 119,487 种有机分子、具备 12 种量子力学性质。
  • 使用 PySCF 在 DFT B3LYP/6-31G(2df,p) 能量级别计算性质。
  • 将分子表示为图,并应用图神经网络来预测量子性质。
  • 对多种 GNN 架构进行基准测试(例如 GCN、GAT、RGCN、GGNN、MPNN、LanczosNet、GIN)。
  • 讨论用于处理分子的数据生成工作流和运行时特性。

实验结果

研究问题

  • RQ1ML 基于分子性质预测在超越 QM9/MoleculeNet 的多样化 QM 数据集上表现如何?
  • RQ2哪种图神经网络架构在 Alchemy 上对量子力学性质预测能达到最佳准确性?
  • RQ3在量子化学中,分子规模和原子类型的多样性是否有助于提高机器学习模型的泛化和迁移性?
  • RQ4用于大规模量子化学数据集的实际考虑因素(计算成本、数据生成)是什么?

主要发现

  • Alchemy 包含 119,487 个分子,具备 12 种量子力学性质。
  • 分子具有最多 14 个重原子(C、N、O、F、S、Cl),来源于 GDB MedChem 子集。
  • 使用 PySCF 在 B3LYP/6-31G(2df,p) 计算属性。
  • 实现并在 Alchemy 上对最先进的 GNN 模型进行了基准测试。
  • 数据集扩展旨在帮助化学与材料科学领域的方法学评价、基准测试和方法开发。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。