Skip to main content
QUICK REVIEW

[论文解读] Symmetry-adapted generation of 3d point sets for the targeted discovery of molecules

Niklas W. A. Gebauer, Michael Gastegger|arXiv (Cornell University)|Jun 2, 2019
Machine Learning in Materials Science参考文献 66被引用 66
一句话总结

作者们提出 G-SchNet,是一个自回归网络,用于生成对旋转不变的三维点集(分子中的原子及其位置),捕捉三维几何并使偏向于如小的 HOMO-LUMO 间隙等性质。它们在 QM9 上进行验证,显示接近平衡结构,并创建新的分子数据集。

ABSTRACT

Deep learning has proven to yield fast and accurate predictions of quantum-chemical properties to accelerate the discovery of novel molecules and materials. As an exhaustive exploration of the vast chemical space is still infeasible, we require generative models that guide our search towards systems with desired properties. While graph-based models have previously been proposed, they are restricted by a lack of spatial information such that they are unable to recognize spatial isomerism and non-bonded interactions. Here, we introduce a generative neural network for 3d point sets that respects the rotational invariance of the targeted structures. We apply it to the generation of molecules and demonstrate its ability to approximate the distribution of equilibrium structures using spatial metrics as well as established measures from chemoinformatics. As our model is able to capture the complex relationship between 3d geometry and electronic properties, we bias the distribution of the generator towards molecules with a small HOMO-LUMO gap - an important property for the design of organic solar cells.

研究动机与目标

  • 以几何感知的分子生成为动机,超越仅基于图的方法来捕捉空间异构和非键相互作用。
  • 提出 G-SchNet,用以生成带有旋转和平移不变性的三维原子位置和类型。
  • 展示从 QM9 生成的新分子,且接近平衡态结构,并评估结构和空间保真度。
  • 展示如何让生成器偏向于期望的电子性质,如小的 HOMO-LUMO 间隙。
  • 提供大量新生成分子的数据集,供进一步分析和基准测试。)

提出的方法

  • 对点集分布进行自回归分解,使其对旋转、平移以及局部对称性具有对称性适应。
  • 使用基于距离的条件概率来生成下一个原子类型与位置,条件化于先前放置的点。
  • 利用辅助令牌(焦点点和原点)来本地化采样并编码全局几何。
  • 基于 SchNet 的神经网络,使用连续滤波卷积层来获得对旋转/平移不变的原子特征。
  • 通过对每个先前点的似然乘积(Eq. 4)来预测类型分布,通过离散化的距离分布(Eq. 3)来预测距离。
  • 通过类型和距离分布的交叉熵损失进行训练,并使用停止令牌来结束生成。

实验结果

研究问题

  • RQ1G-SchNet 能否生成类似平衡几何结构的三维分子,且再现 QM9 的结构统计?
  • RQ2生成的结构在空间分布(径向/角度)方面是否与训练数据一致?
  • RQ3模型是否可以偏向于提高具备期望电子性质的分子,如小的 HOMO-LUMO 间隙?
  • RQ4在有效性、新颖性和结构特征方面,G-SchNet 与基于图的分子生成器有何比较?
  • RQ5可以产生哪些新的生成分子数据集用于进一步验证和基准测试?

主要发现

  • 约有 77% 的生成分子在生成和价态检查后有效。
  • 在与放松的平衡结构比较时,生成分子对未见/测试数据的 RMSD 中位数约为 0.21 Å。
  • 生成分子的径向分布函数和角分布与 QM9 的训练数据对齐良好,表明空间统计保真。
  • 对小 HOMO-LUMO 间隙的偏置使符合条件的分子比例从 7% 提升到 43%。
  • 作者引入了包含成千上万在 QM9 中未出现的新分子数据集(超过 9k 个新结构;>3.6k 偏置结构)。
  • 在对经过筛选子集训练时(如避免小环),生成结构保持原子/键计数并且类似训练数据的环统计。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。