QUICK REVIEW

[論文レビュー] Data-Driven Approach to Encoding and Decoding 3-D Crystal Structures

Jordan Hoffmann, Louis Maestrati|arXiv (Cornell University)|Sep 3, 2019

Machine Learning in Materials Science参考文献 46被引用数 24

ひとこと要約

本論文は、原子位置から導出された連続的3次元密度表現を用いて、3次元結晶構造を符号化・復号化するデータ駆動型ディープラーニングフレームワークを提案する。120,000個の回転させた結晶単位格子を用いて3次元畳み込みネットワークでオートエンコーダーを訓練することで、正確な再構成、補間、および幾何学的・成分的性質を制御可能な分子の条件付き生成を可能にする滑らかで連続的な潜在空間を学習する。

ABSTRACT

Generative models have achieved impressive results in many domains including image and text generation. In the natural sciences, generative models have led to rapid progress in automated drug discovery. Many of the current methods focus on either 1-D or 2-D representations of typically small, drug-like molecules. However, many molecules require 3-D descriptors and exceed the chemical complexity of commonly used dataset. We present a method to encode and decode the position of atoms in 3-D molecules from a dataset of nearly 50,000 stable crystal unit cells that vary from containing 1 to over 100 atoms. We construct a smooth and continuous 3-D density representation of each crystal based on the positions of different atoms. Two different neural networks were trained on a dataset of over 120,000 three-dimensional samples of single and repeating crystal structures, made by rotating the single unit cells. The first, an Encoder-Decoder pair, constructs a compressed latent space representation of each molecule and then decodes this description into an accurate reconstruction of the input. The second network segments the resulting output into atoms and assigns each atom an atomic number. By generating compressed, continuous latent spaces representations of molecules we are able to decode random samples, interpolate between two molecules, and alter known molecules.

研究の動機と目的

幾何学的および原子成分の情報を捉える、連続的で微分可能な3次元結晶構造の表現を構築すること。
1次元または2次元の分子表現の範囲を超えて、100個以上の原子を含む複雑な3次元結晶単位格子の生成的モデリングを可能にすること。
補間、条件付き生成、および性質の制御を可能にする、分離可能で連続的な潜在空間を学習すること。
学習された潜在表現が、原子種類と空間配置を制御可能な物理的に妥当な3次元構造の生成に利用できることを示すこと。

提案手法

結晶単位格子内の原子位置から、電子密度の滑らかで連続的な代理関数としての3次元密度場表現を構築する。
120,000個の拡張済みサンプル（回転させた単位格子）を用いて3次元畳み込みオートエンコーダーを訓練し、圧縮され連続的な潜在空間を学習する。
潜在表現を原子種に復号化するために、別個のセグメンテーションヘッドを用い、予測された密度ピークに原子番号を割り当てる。
ランダムな回転によるデータ拡張を適用し、一般化性能および方向に不変なモデルの特性を向上させる。
ボトルネック層に最大密度値をモードリングすることで、最大の原子種に条件づけた生成プロセスを実現する。
変分オートエンコーダー（VAE）ベースのアーキテクチャを用いて、分子生成のための確率的サンプリングおよび潜在空間内の補間を可能にする。

実験結果

リサーチクエスチョン

RQ1学習された3次元密度表現は、最大100個の原子を含む結晶単位格子の幾何学的・成分的複雑さを効果的に符号化できるか？
RQ2学習された潜在空間は、意味のある補間および新規結晶構造の制御された生成を可能にするか？
RQ3モデルは、実際の結晶に見られる原子間距離分布を保持する物理的に妥当な3次元構造を生成できるか？
RQ4特定の化学的性質（例：重い原子の欠如）にどの程度条件づけられるか？
RQ5幾何学的忠実度および化学的妥当性の観点から、生成された構造は実際の結晶構造とどの程度類似しているか？

主な発見

モデルは、多様な単位格子幾何構造にわたり、原子の空間的配置を保持した高精度な3次元結晶構造の再構成に成功している。
学習された潜在空間における補間は、分子構造間の滑らかな遷移を生み出し、連続的で意味のある表現であることを示している。
潜在空間からの確率的サンプリングにより、ヒストограмの分析によって妥当性が検証された、現実的な原子間距離分布を維持する妥当な3次元密度場が生成された。
ボトルネック層のモードリングによる条件付き生成により、存在する最大原子番号の制御が可能であり、ターゲット設計の能力が実証された。
モデルはスケール不変な生成を可能にしている：潜在変数の変更は分子幾何構造を歪めることなくサイズに影響を与える。
DFTの最適化が可能な構造の生成に限界があるものの、同報的アーキテクチャおよび微分可能な原子配置を用いた今後の3次元分子生成研究の強固な基盤を提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。