Skip to main content
QUICK REVIEW

[论文解读] The ab initio amorphous materials database: Empowering machine learning to decode diffusivity

Hui Zheng, Eric Sivonxay|arXiv (Cornell University)|Jan 31, 2024
Cultural Heritage Materials Analysis被引用 5
一句话总结

本论文通过 AIMD 构建最大的计算无定形材料数据库(5120 种组成,79 种元素),并展示 ML 模型(RF、XGBoost、SISSO)来预测 Li+ 的扩散系数,辅以通过 M3GNet 进行的代理结构生成。

ABSTRACT

Amorphous materials exhibit unique properties that make them suitable for various applications in science and technology, ranging from optical and electronic devices and solid-state batteries to protective coatings. However, data-driven exploration and design of amorphous materials is hampered by the absence of a comprehensive database covering a broad chemical space. In this work, we present the largest computed amorphous materials database to date, generated from systematic and accurate extit{ab initio} molecular dynamics (AIMD) calculations. We also show how the database can be used in simple machine-learning models to connect properties to composition and structure, here specifically targeting ionic conductivity. These models predict the Li-ion diffusivity with speed and accuracy, offering a cost-effective alternative to expensive density functional theory (DFT) calculations. Furthermore, the process of computational quenching amorphous materials provides a unique sampling of out-of-equilibrium structures, energies, and force landscape, and we anticipate that the corresponding trajectories will inform future work in universal machine learning potentials, impacting design beyond that of non-crystalline materials.

研究动机与目标

  • 动员/说明需要一个全面的无定形材料数据库,以加速离子导体的数据驱动发现。
  • 生成一个规模大、类型广泛的基于 AIMD 的无定形数据库,覆盖广泛的成分和温度。
  • 利用基于成分和结构相关特征训练的机器学习模型,快速预测 Li 离子扩散系数。

提出的方法

  • 通过 MPMorph 工作流在 5000 K 下熔融,为 5,120 种组成生成无定形结构。
  • 通过对选定组成的最后一个快照结构在 1000–2500 K 之间退火,创建第二个多温度数据库。
  • 从基于 AIMD 的轨迹计算 Li 的扩散系数和活化能,并提取丰富的用于 ML 的特征集。
  • 训练随机森林和 XGBoost 模型,以预测温度相关的扩散系数,并通过五折交叉验证评估泛化能力。
  • 开发 SISSO 描述子来预测 Li 的扩散系数,并比较不同模型复杂度下的性能。
  • 将 M3GNet 集成为代理,以生成无定形结构并计算用于 ML 输入的结构特征,评估加速效果和适用性。
Figure 1: Elemental occurrence in the 5000K amorphous database compared to the Materials Project . Element occurrence ratios for compositions in the amorphous database are shaded by color scale.
Figure 1: Elemental occurrence in the 5000K amorphous database compared to the Materials Project . Element occurrence ratios for compositions in the amorphous database are shaded by color scale.

实验结果

研究问题

  • RQ1一个庞大、多样化的从头计算无定形材料数据库是否能够在跨组成和温度范围内对 Li+ 的扩散系数进行准确的机器学习预测?
  • RQ2哪些成分和结构特征与无定形系统中的 Li 的扩散系数和活化能相关性最强?
  • RQ3集成模型(RF、XGBoost)与 SISSO 描述子在从无定形数据预测 Li 扩散系数方面的比较如何?
  • RQ4通用机器学习势(M3GNet/CHGNet)是否能够可靠地生成无定形结构并为扩散预测提供有用的输入?

主要发现

  • 该数据库涵盖 5120 种组成和 79 种元素,在 5000 K 无定形集合中包含 3,533 个含 Li 的化合物。
  • Li 的扩散系数和活化能分布揭示了与阴离子类型、阳离子尺寸和电负性差异相关的明显趋势。
  • RF 和 XGBoost 在扩散系数预测中的拟合接近完美(R^2 接近 1),MAE 和 RMSE 较低,经交叉验证验证。
  • 最具预测力的特征包括 Li% 以及描述非 Li 环境和键合的特征,如平均晶格结合能、堆积密度和 Li 邻居数等。
  • SISSO 模型可以利用最佳的 3 描述符来预测扩散系数,突出温度、成分与结构之间可解释的关系。
  • M3GNet 可以以高保真度再现 AIMD 推导的结构(R^2 高达 0.99 的 RDF),并使结构生成速度提升约 2000 倍,但对于高温(5000 K)扩散系数的精度较低。
Figure 2: Li diffusivities and activation energies . Distributions of Li diffusivity, $D$ (2500 K), and activation energy, $E_{a}$ , calculated from the multi-temperature amorphous database. Compositions are sorted based on the anion element present in the system and collated by group on the periodi
Figure 2: Li diffusivities and activation energies . Distributions of Li diffusivity, $D$ (2500 K), and activation energy, $E_{a}$ , calculated from the multi-temperature amorphous database. Compositions are sorted based on the anion element present in the system and collated by group on the periodi

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。