Skip to main content
QUICK REVIEW

[论文解读] Chemical space exploration with molecular genes and machine learning

Bing Huang, O. Anatole von Lilienfeld|arXiv (Cornell University)|Jul 13, 2017
Machine Learning in Materials Science被引用 4
一句话总结

本文提出了一种AML模型,将原子在分子中的片段(amons)与可迁移的量子机器学习相结合,以高效探索化学空间。通过利用主动学习和局部原子环境,该方法在从有机分子到蛋白质的多样化体系中,实现了对量子性质的高精度和可扩展性预测,有效将周期表概念扩展至化学环境。

ABSTRACT

First principles based exploration of chemical space deepens our understanding of chemistry, and might help with the design of new materials or experiments. Due to the computational cost of quantum chemistry methods and the immens number of theoretically possible stable compounds comprehensive in-silico screening remains prohibitive. To overcome this challenge, we combine atoms-in-molecules based fragments, dubbed amons (A), with active learning in transferable quantum machine learning (ML) models. The efficiency, accuracy, scalability, and transferability of resulting AML models is demonstrated for important molecular quantum properties, such as energies, forces, atomic charges NMR shifts, polarizabilities, and for systems ranging from organic molecules over 2D materials and water clusters to Watson-Crick DNA base-pairs and even ubiquitin. Conceptually, the AML approach extends Mendeleev's table to effectively account for chemical environments, which allows the systematic reconstruction of many chemistries from local building blocks.

研究动机与目标

  • 克服传统量子化学方法在计算上不可行的全面化学空间体外筛选问题。
  • 开发一种可扩展且精确的方法,用于预测从小型分子到生物大分子和二维材料等多样化分子体系的量子性质。
  • 通过局部原子片段(amons)引入化学环境效应,扩展周期表概念。
  • 利用主动学习和可迁移机器学习模型,实现化学空间的高效探索。
  • 系统性地从局部、可迁移的构建单元重构复杂化学。

提出的方法

  • 该方法使用原子在分子中(AIM)的片段,称为amons(A),作为局部构建单元来表示化学环境。
  • 将amons与基于量子化学数据训练的可迁移量子机器学习(ML)模型相结合。
  • 采用主动学习迭代选择最具信息量的分子构型用于训练,提升数据效率。
  • 模型可预测关键量子性质,如能量、力、原子电荷、NMR化学位移和极化率。
  • 该方法实现了在不同化学体系之间的迁移学习,包括有机分子、二维材料、水团簇、DNA碱基对和泛素蛋白。
  • 该框架通过组合amons系统性地重构分子化学,有效将门捷列夫的周期表概念扩展至包含环境效应。

实验结果

研究问题

  • RQ1amons能否作为通用且可迁移的构建单元,用于建模化学空间中多样化的量子化学性质?
  • RQ2结合amons的主动学习与机器学习方法在量子化学中如何提升数据效率和预测精度?
  • RQ3AML模型在从小型分子到生物大分子和二维材料等不同化学体系中的泛化能力如何?
  • RQ4AML框架能否系统性地从局部原子环境重构复杂化学?
  • RQ5基于amons的方法在多大程度上扩展了周期表的概念框架,以包含化学环境效应?

主要发现

  • AML模型在预测能量、力、原子电荷、NMR化学位移和极化率等量子性质方面,在多样化体系中均表现出高精度。
  • 该方法展现出强大的可扩展性和可迁移性,能够对从有机分子到泛素蛋白的体系实现可靠预测。
  • 主动学习显著提升了数据效率,减少了所需量子化学计算的次数。
  • 基于amons的表示方法有效捕捉了化学环境效应,将周期表的实用性扩展至包含局部成键环境。
  • 该方法能够从局部、可迁移的片段系统性地重构复杂化学,促进对化学空间的全面探索。
  • 该框架成功以高保真度对沃森-克里克DNA碱基对和二维材料等复杂体系进行了建模。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。