Skip to main content
QUICK REVIEW

[論文レビュー] Scalable Diffusion for Materials Generation

Mengjiao Yang, KwangHwan Cho|arXiv (Cornell University)|Oct 18, 2023
Machine Learning in Materials Science被引用数 24
ひとこと要約

UniMatを導入します。拡張可能な結晶表現を用いた拡散モデルで、大規模な材料データセットにスケールし、DFTで検証された安定材料を生み出し、従来のグラフベース手法を上回ります。

ABSTRACT

Generative models trained on internet-scale data are capable of generating novel and realistic texts, images, and videos. A natural next question is whether these models can advance science, for example by generating novel stable materials. Traditionally, models with explicit structures (e.g., graphs) have been used in modeling structural relationships in scientific data (e.g., atoms and bonds in crystals), but generating structures can be difficult to scale to large and complex systems. Another challenge in generating materials is the mismatch between standard generative modeling metrics and downstream applications. For instance, common metrics such as the reconstruction error do not correlate well with the downstream goal of discovering stable materials. In this work, we tackle the scalability challenge by developing a unified crystal representation that can represent any crystal structure (UniMat), followed by training a diffusion probabilistic model on these UniMat representations. Our empirical results suggest that despite the lack of explicit structure modeling, UniMat can generate high fidelity crystal structures from larger and more complex chemical systems, outperforming previous graph-based approaches under various generative modeling metrics. To better connect the generation quality of materials to downstream applications, such as discovering novel stable materials, we propose additional metrics for evaluating generative models of materials, including per-composition formation energy and stability with respect to convex hulls through decomposition energy from Density Function Theory (DFT). Lastly, we show that conditional generation with UniMat can scale to previously established crystal datasets with up to millions of crystals structures, outperforming random structure search (the current leading method for structure discovery) in discovering new stable materials.

研究の動機と目的

  • グラフベースの明示的構造モデルを超える新規材料のスケーラブルな生成を促進する。
  • 任意の結晶構造を拡散モデリングを可能にする固定サイズの4Dテンソルとして表現する UniMat を提案する。
  • UniMatを用いた拡散が数百万の結晶にスケールし、DFT検証済みの安定性向上をもたらすことを示す。
  • 下流の材料発見と整合する指標を開発する(DFT形成エネルギーと凸包分解)。
  • 条件付き生成におけるゼロショット一般化と、ランダム構造探索よりも効率が向上することを示す。

提案手法

  • UniMatを提案する: 周期表に合わせた格子上で元素ごとの原子位置を捉える4D表現 M = R^{L x H x W x 3}。
  • 分数座標を用いる場合、結晶を任意の単位胞パラメータとともに表現し、任意の原子数を許容するための null location を含める。
  • 拡散ノイズ除去モデルにおいて、L, H, W にまたがる interleaved attention および畳み込み層を適用し、原子間の関係を学習する。
  • UniMat 上で条件なしおよび組成条件付きの denoising diffusion モデルを訓練する。ノイズ入力に条件情報を連結して用いる。
  • 組成 c に基づく条件付き生成を有効にして構造生成を誘導し、分類器なしガイダンスを適用して補助情報を組み込む。
  • DFT リラクゼーション(形成エネルギー E_f および凸包に対する分解エネルギー E_d)を用いて生成材料を厳密に検証する。
Figure 1 : UniMat representation of crystal structures. Crystals are represented by the atom locations stored at the corresponding elements in the periodic table (and additional unit cell parameters if coordinates are fractional). For instance, the bottom right atom Na in the crystal is located at $
Figure 1 : UniMat representation of crystal structures. Crystals are represented by the atom locations stored at the corresponding elements in the periodic table (and additional unit cell parameters if coordinates are fractional). For instance, the bottom right atom Na in the crystal is located at $

実験結果

リサーチクエスチョン

  • RQ1統一結晶表現を用いた場合、明示的なグラフ構造なしで拡散モデルは原子間関係を効果的に捉えられるか?
  • RQ2UniMat は大規模で複雑な材料データセットにスケールし、グラフベース手法よりも DFT 検証済みの安定性を改善するか?
  • RQ3ターゲット組成に対する条件付き UniMat 生成はどの程度性能を発揮し、ランダム探索と比べて構造発見を加速できるか?
  • RQ4下流の合成および安定性の結果と最も良く整合する新しい評価指標は何か?
  • RQ5条件付き生成が訓練 manifolds を超える構造を生み出すゼロショット一般化は可能か?

主な発見

  • UniMat は複数のデータセットで、安定性および形成エネルギーに関する DFT 派生指標で従来のグラフベース手法を上回る。
  • DFT に基づく評価は、UniMat が組成あたりの形成エネルギーを低くし、CDVAE より安定材料の割合が高いことを示す。
  • UniMat の unconditional および conditioned 生成の混合は、凸包ベンチマーク(MP 2021 および GNoME)でより安定/準安定材料を著しく多く生み出す。
  • 条件付き UniMat 生成は AIRSS の収束速度を改善し、与えられた組成に対してゼロショット設定で AIRSS より低い形成エネルギーを達成する。
  • UniMat 内のモデルスケーリング(より大きな特徴次元)は、MP-20 のような複雑なデータセットでより良い妥当性とカバレッジをもたらす。
Figure 2 : Illustration of the denoising process for unconditional generation with UniMat. The denoising model learns to move atoms from random locations back to their original locations. Atoms not present in the crystal are moved to the null location during the denoising process, allowing crystals
Figure 2 : Illustration of the denoising process for unconditional generation with UniMat. The denoising model learns to move atoms from random locations back to their original locations. Atoms not present in the crystal are moved to the null location during the denoising process, allowing crystals

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。