[论文解读] The "DNA" of chemistry: Scalable quantum machine learning with "amons"
该论文提出了'amons'——代表重复化学环境的等效原子——以实现分子性质预测的可扩展量子机器学习。通过将分子编码为类似于DNA的amons序列,该方法在仅使用少量训练数据的情况下,实现了对包括大分子生物分子和聚合物在内的多种体系的量子能量预测,精度接近实验水平。
Given sufficient examples, recently introduced machine learning models enable rapid, yet accurate, predictions of properties of new molecules. Extrapolation to larger molecules with differing composition is prohibitive due to all the specific chemistries which would be required for training. We address this problem by exploiting redundancies due to chemical similarity of repeating building blocks each represented by an effective {\underline a}tom in {\underline m}olecule: The am-on. In analogy to the DNA sequence in a gene encoding its function, constituting amons encode a query molecule's properties. The use of amons affords highly accurate machine learning predictions of quantum properties of arbitrary query molecules in real time. We investigate this approach for predicting energies of various covalently and non-covalently bonded systems. After training on the few amons detected, very low prediction errors can be reached, on par with experimental uncertainty. Systems studied include two dozen large biomolecules, eleven thousand medium sized organic molecules, large common polymers, water clusters, doped $h$BN sheets, bulk silicon, and Watson-Crick DNA base pairs. Conceptually, the amons extend Mendeleev's table to account for the chemical environments of elements. They represent an important stepping stone to machine learning based virtual chemical space exploration campaigns.
研究动机与目标
- 通过利用重复结构片段中的化学相似性,克服分子量子机器学习中的可扩展性障碍。
- 通过将重复的化学环境统一表示为'amons',减少对大量训练数据的需求。
- 实现在大而多样的分子体系中对量子性质(例如能量)的精确、实时预测。
- 通过将化学环境效应编码到amons中,从概念上扩展元素周期表,实现对化学空间的虚拟探索。
提出的方法
- 将重复的分子亚结构表示为'amons'——编码其局部化学环境和量子性质的等效原子。
- 在少量检测到的amons上训练机器学习模型,以预测新分子的量子能量。
- 将查询分子编码为amons序列,类似于DNA序列编码生物功能。
- 使用可微分的amons表示,以支持基于梯度的优化,并推广至未见过的分子结构。
- 利用化学相似性外推预测结果,从而最小化数据需求。
- 将该框架应用于多种体系,包括共价键、非共价作用及扩展的固态体系。
实验结果
研究问题
- RQ1少量amons能否以高精度捕捉广泛分子体系的量子性质?
- RQ2amons模型在未在训练中见过的更大、结构更复杂的分子上泛化能力如何?
- RQ3amons在多大程度上可降低分子体系中量子机器学习的数据和计算成本?
- RQ4amons框架能否准确预测具有复杂键合特征的体系(如生物分子和掺杂的2D材料)的能量?
- RQ5与传统方法相比,amons方法在预测精度和推理速度方面表现如何?
主要发现
- 在仅训练少数检测到的amons后,基于amons的模型预测误差已达到与实验不确定度相当的水平。
- 该方法实现了对包括大分子生物分子和聚合物在内的广泛体系的量子能量实时预测。
- 即使在预测分子组成和尺寸与训练集不同的体系时,预测精度仍保持较高水平。
- 该框架成功预测了共价键合体系、非共价作用、水团簇、掺杂h-BN薄片、体相硅以及DNA碱基对的能量。
- amons表示有效捕捉了化学环境效应,从概念上扩展了元素周期表,纳入了局部键合环境。
- 该方法通过减少每分子的训练数据需求,实现了化学空间的可扩展虚拟探索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。