Skip to main content
QUICK REVIEW

[論文レビュー] Symmetry-adapted generation of 3d point sets for the targeted discovery of molecules

Niklas W. A. Gebauer, Michael Gastegger|arXiv (Cornell University)|Jun 2, 2019
Machine Learning in Materials Science参考文献 66被引用数 66
ひとこと要約

著者らは G-SchNet を導入し、分子の回転不変な 3D 点集合(原子の位置)を生成する自己回帰ネットワークを提案する。3D 幾何を捉え、小さな HOMO-LUMO ギャップのような特性へ偏りを持たせることを可能にする。QM9 で検証し、平衡構造への近さを示し、新規分子データセットを作成した。

ABSTRACT

Deep learning has proven to yield fast and accurate predictions of quantum-chemical properties to accelerate the discovery of novel molecules and materials. As an exhaustive exploration of the vast chemical space is still infeasible, we require generative models that guide our search towards systems with desired properties. While graph-based models have previously been proposed, they are restricted by a lack of spatial information such that they are unable to recognize spatial isomerism and non-bonded interactions. Here, we introduce a generative neural network for 3d point sets that respects the rotational invariance of the targeted structures. We apply it to the generation of molecules and demonstrate its ability to approximate the distribution of equilibrium structures using spatial metrics as well as established measures from chemoinformatics. As our model is able to capture the complex relationship between 3d geometry and electronic properties, we bias the distribution of the generator towards molecules with a small HOMO-LUMO gap - an important property for the design of organic solar cells.

研究の動機と目的

  • 空間異性体性と非結合相互作用を捉えるために、グラフベース手法を超えた幾何学を意識した分子生成を動機づける。
  • G-SchNet を提案し、回転・平行移動不変性を持つ3D原子位置と種類の生成を行う。
  • QM9 から新規で平衡様な分子を生成することを示し、構造および空間的忠実度を評価する。
  • 生成器を小さな HOMO-LUMO ギャップのような望ましい電子特性へ偏らせる方法を示す。
  • さらなる分析とベンチマークのための新規生成分子データセットを提供する。

提案手法

  • 回転・平行移動・局所対称性に適合した対称性適合型の点集合分布の自己回帰分解。
  • 既に配置された点を条件とした距離に基づく確率を用いて、次の原子種と位置を生成する。
  • サンプリングを局所化し、全体の幾何を符号化するための補助トークン(focus pointとorigin)の利用。
  • 回転・平行移動不変な原子特徴を得るための連続フィルター畳み込み層を備えたSchNetベースのニューラルネットワーク。
  • 前の各点ごとの尤度の積(式4)による種類分布の予測と、離散化ビン(式3)による距離分布の予測。
  • 種類分布と距離分布に対するクロスエントロピー損失での訓練と、生成終了を示す停止トークン。

実験結果

リサーチクエスチョン

  • RQ1G-SchNet は平衡幾何に似た3D分子構造を生成し、QM9 の構造統計を再現できるか?
  • RQ2生成された構造は、訓練データと比較して正しい空間分布(半径分布/角分布)を示すか?
  • RQ3望ましい電子特性を持つ分子を増やすようにモデルを偏らせることは可能か、例として小さなHOMO-LUMOギャップ?
  • RQ4妥当性・新規性・構造的特徴の点で、G-SchNet はグラフベースの分子生成器とどう比較されるか?
  • RQ5さらなる検証とベンチマークのために、どのような新規生成分子データセットを作成できるか?

主な発見

  • 約77% の生成分子が生成後および価数チェック後に有効である。
  • 生成分子は未見/テストデータに対して、緩和された平衡構造と比較するとRMSD中央値が約0.21 Åである。
  • 生成分子の半径分布関数と角分布は QM9 の訓練データと良く一致し、空間統計が忠実であることを示す。
  • 小さな HOMO-LUMO ギャップへ偏らせた微調整により、適格分子の割合が7%から43%に増加する。
  • 著者らは QM9 に含まれない新規分子を数千規模で含むデータセットを導入する(9千を超える新規構造; >3.6千 偏り構造)。
  • 生成構造は原子/結合数を保持し、フィルタリングされたサブセットで訓練した場合、訓練データの環状統計に似る(例:小さな環を避ける)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。