[论文解读] Unified Representation of Molecules and Crystals for Machine Learning
该论文提出 MBTR,即多体张量表示,通过机器学习实现对分子和晶体的准确内插,并展示了在能量/力预测和相图应用方面的具竞争力表现。
Accurate simulations of atomistic systems from first principles are limited by computational cost. In high-throughput settings, machine learning can reduce these costs significantly by accurately interpolating between reference calculations. For this, kernel learning approaches crucially require a representation that accommodates arbitrary atomistic systems. We introduce a many-body tensor representation that is invariant to translations, rotations, and nuclear permutations of same elements, unique, differentiable, can represent molecules and crystals, and is fast to compute. Empirical evidence for competitive energy and force prediction errors is presented for changes in molecular structure, crystal chemistry, and molecular dynamics using kernel regression and symmetric gradient-domain machine learning as models. Applicability is demonstrated for phase diagrams of Pt-group/transition-metal binary systems.
研究动机与目标
- 鼓励机器学习以降低化学与材料科学中第一性原子尺度模拟的成本。
- 开发一个单一、不变、可微分的描述子,能够同时表示有限系统和周期性系统。
- 提出一个可扩展的表示,支持核回归和基于梯度的学习。
- 展示 MBTR 在分子能量/极化率以及晶体形成能上的准确性,并通过主动学习展示其在相图中的适用性。
提出的方法
- 将 MBTR 定义为用多体展开推广 Coulomb 矩阵和 bag-of-bonds 概念。
- 使用选择的核(例如高斯核)对带元素分层的分布以及展宽,编码 k-体项 f_k(x, z)。
- 引入元素相关矩阵 C,以实现跨元素的炼金学学习。
- 将连续轴离散化,以获得可微分且适合核/岭回归的张量表示。
- 通过强制单胞约束和加权来处理周期性系统,确保收敛。
- 推导解析梯度或使用自动微分从 MBTR 获得力(式6)。
- 使用核岭回归和 sGDML 框架,将 MBTR 与其他描述符在能量和力预测方面进行比较。
实验结果
研究问题
- RQ1MBTR能否提供一个适用于分子与晶体系统的通用描述子,具有不变、唯一、连续、可微分且计算快速的特性?
- RQ2与现有表示相比,MBTR在预测分子原子化能和极化率方面的表现如何?
- RQ3MBTR在预测晶体形成能方面的有效性如何,包括多元素合金?
- RQ4MBTR 基于的模型能否与主动学习结合,以高效构建材料的相图?
- RQ5MBTR 基于的力/势预测在动力学和几何插值方面与其他机器学习势模型相比如何?
主要发现
- MBTR 在一小组有机分子上对原子化能的误差达到化学精确度水平(<1 kcal/mol MAE),极化率的 MAE 约为 0.07 Å^3。
- 使用线性回归的 MBTR 在分子几何变化的能量/力预测方面具有竞争力,并在使用非线性核或 sGDML 框架时显示出额外提升。
- 对 elpasolite 晶体(ABC2D6,含 12 种元素),MBTR 的形成能 RMSE 约 8.1 meV/原子,MAE 约 4.7 meV/原子,在 9k 训练集上。
- 扩展到 4,611 结构的三元合金集,RMSE 增至约 23–31 meV/原子,MAE 增至约 15–23 meV/原子,显示出对化学复杂性的可扩展性。
- 一种主动学习方案将所需的 DFT 评估减少最多 48%,同时正确识别 Ag-Pt 相图的凸包。
- MBTR 可以通过改进力/能量预测来提升 sGDML,在某些情况下误差下降达 50–60%,特别是在训练数据有限时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。