[论文解读] Scalable Diffusion for Materials Generation
他们提出 UniMat,一个用于扩散模型的统一晶体表示,能够扩展到大型材料数据集并产生通过 DFT 验证的稳定材料,优于现有基于图的方法。
Generative models trained on internet-scale data are capable of generating novel and realistic texts, images, and videos. A natural next question is whether these models can advance science, for example by generating novel stable materials. Traditionally, models with explicit structures (e.g., graphs) have been used in modeling structural relationships in scientific data (e.g., atoms and bonds in crystals), but generating structures can be difficult to scale to large and complex systems. Another challenge in generating materials is the mismatch between standard generative modeling metrics and downstream applications. For instance, common metrics such as the reconstruction error do not correlate well with the downstream goal of discovering stable materials. In this work, we tackle the scalability challenge by developing a unified crystal representation that can represent any crystal structure (UniMat), followed by training a diffusion probabilistic model on these UniMat representations. Our empirical results suggest that despite the lack of explicit structure modeling, UniMat can generate high fidelity crystal structures from larger and more complex chemical systems, outperforming previous graph-based approaches under various generative modeling metrics. To better connect the generation quality of materials to downstream applications, such as discovering novel stable materials, we propose additional metrics for evaluating generative models of materials, including per-composition formation energy and stability with respect to convex hulls through decomposition energy from Density Function Theory (DFT). Lastly, we show that conditional generation with UniMat can scale to previously established crystal datasets with up to millions of crystals structures, outperforming random structure search (the current leading method for structure discovery) in discovering new stable materials.
研究动机与目标
- 激励超越基于图的显式结构模型,进行可扩展的新材料生成。
- 提出 UniMat,将任意晶体结构表示为固定大小的 4D 张量,从而实现扩 diffusion 建模。
- 展示使用 UniMat 的扩散能够扩展到数百万个晶体,并带来经过 DFT 验证的稳定性改进。
- 开发与下游材料发现相一致的指标(DFT 形成能和凸壳分解)。
- 展示零-shot 泛化能力以及在条件生成方面相对随机结构搜索的效率提升。
提出的方法
- 提出 UniMat:一个 4D 表示 M = R^{L x H x W x 3},在按周期表对齐的网格中捕捉每个元素的原子位置。
- 在使用分数坐标时,使用可选的单位胞参数来表示晶体,并包含一个空位置以允许任意原子数。
- 在 L、H、W 上应用交错注意力和卷积层,以学习扩散去噪模型中的原子间关系。
- 在 UniMat 上训练无条件和成分可条件的去噪扩散模型;将条件信息与噪声输入进行拼接。
- 在组成 c 上实现条件生成以引导结构生成,并应用无分类器引导来整合辅助信息。
- 使用 DFT 弛豫(形成能 E_f 和相对于凸壳的分解能 E_d)来严格验证生成的材料。

实验结果
研究问题
- RQ1在使用统一晶体表示时,扩散模型是否能够在没有显式图结构的情况下有效捕捉原子间关系?
- RQ2UniMat 是否能扩展到大型、复杂的材料数据集,并在经过 DFT 验证的稳定性方面优于基于图的方法?
- RQ3面向目标组成的条件 UniMat 生成的表现如何,是否能加速结构发现相较于随机搜索?
- RQ4哪些新评估指标最能将生成材料的质量与后续合成与稳定性结果对齐?
- RQ5是否可能实现零-shot 泛化,使条件生成能够产生超出训练集分布的结构?
主要发现
- UniMat 在多个数据集的基于 DFT 的稳定性和形成能指标上优于先前的基于图的方法。
- 基于 DFT 的评估显示,UniMat 的每个组成的形成能更低,稳定材料的比例也高于 CDVAE。
- 将无条件生成与条件生成混合使用的 UniMat,在凸壳基准(MP 2021 与 GNoME)上产生的材料更加稳定/亚稳定。
- 条件 UniMat 生成提高 AIRSS 收敛速率,并在给定组成的零-shot 设置中实现低于 AIRSS 的形成能。
- 在 UniMat 中进行模型扩展(更大的特征维度)在像 MP-20 这样的复杂数据集上带来更好的有效性和覆盖率。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。