Skip to main content
QUICK REVIEW

[论文解读] 3DMolNet: A Generative Network for Molecular Structures

Vitali Nesterov, Mario Wieser|arXiv (Cornell University)|Oct 8, 2020
Machine Learning in Materials Science参考文献 41被引用 25
一句话总结

3DMolNet 提出了一种基于变分自编码器的 3D 分子结构生成模型,通过使用标准原子排序,学习一个连续的、平移不变、旋转不变且排列不变的潜在空间。其对重原子坐标的重建误差低于 0.05 Å,比最先进方法提高四倍,实现了高保真度、化学组成多样的分子生成,具有有效几何结构和新颖的化学结构。

ABSTRACT

With the recent advances in machine learning for quantum chemistry, it is now possible to predict the chemical properties of compounds and to generate novel molecules. Existing generative models mostly use a string- or graph-based representation, but the precise three-dimensional coordinates of the atoms are usually not encoded. First attempts in this direction have been proposed, where autoregressive or GAN-based models generate atom coordinates. Those either lack a latent space in the autoregressive setting, such that a smooth exploration of the compound space is not possible, or cannot generalize to varying chemical compositions. We propose a new approach to efficiently generate molecular structures that are not restricted to a fixed size or composition. Our model is based on the variational autoencoder which learns a translation-, rotation-, and permutation-invariant low-dimensional representation of molecules. Our experiments yield a mean reconstruction error below 0.05 Angstrom, outperforming the current state-of-the-art methods by a factor of four, and which is even lower than the spatial quantization error of most chemical descriptors. The compositional and structural validity of newly generated molecules has been confirmed by quantum chemical methods in a set of experiments.

研究动机与目标

  • 为解决自回归 3D 分子生成模型中缺乏连续潜在空间的问题,该问题阻碍了对化学化合物空间的平滑探索。
  • 克服基于生成对抗网络(GAN)模型的组成特异性限制,后者将生成限制在固定化学组成范围内。
  • 实现出色的原子坐标、键类型和化学组成精度的高精度 3D 分子结构生成。
  • 通过连续潜在空间采样和量子化学验证,支持发现新颖且化学上有效的分子。
  • 提供一种一次性、可微分且不变的分子结构表示方法,基于原子序数、距离矩阵和键矩阵。

提出的方法

  • 该模型使用变分自编码器(VAE)学习分子的低维连续潜在表示,该表示对平移、旋转和原子排列具有不变性。
  • 采用重原子的标准排序(基于 InChI)以解决分子表示中的排列问题。
  • 通过神经网络分别解码三个组件:原子序数矩阵、欧几里得距离矩阵(EDM)和键矩阵。
  • 从解码后的 EDM 和原子序数矩阵出发,通过经典多维缩放(MDS)重建 3D 坐标,并在后处理中使用量子力学优化添加氢原子。
  • VAE 在 QM9 数据集上端到端训练,重建损失基于原子坐标的 RMSD,同时验证键类型和化学组成的保真度。
  • 通过从学习到的高斯先验中采样,实现潜在空间探索,从而生成具有多样化化学组成的新型分子结构。

实验结果

研究问题

  • RQ1基于 VAE 的生成模型能否在保持对平移、旋转和原子排列不变性的同时,实现高精度的 3D 分子结构重建?
  • RQ2该模型能否通过连续潜在空间采样生成具有多样化化学组成和有效几何结构的新型分子结构?
  • RQ3在坐标重建精度和对不同化学组成的泛化能力方面,该模型是否优于现有的自回归方法和基于 GAN 的方法?
  • RQ4生成的分子在多大程度上保持了正确的键类型和化学组成?其几何结构在量子力学优化后是否稳定?
  • RQ5该模型能否通过潜在空间中的平滑插值和生成,实现对化学化合物空间的有意义探索?

主要发现

  • 该模型对重原子坐标的平均重建误差低于 0.05 Å,比最先进方法提高四倍。
  • 重建精度低于常见化学描述符的典型空间量化误差,表明具有高保真度。
  • 通过潜在空间采样,发现了超过 20,000 个具有独特化学组成的新型分子结构,且在 QM9 数据集中无重复。
  • 经过 MOPAC 基于的几何优化后,生成结构与平衡结构之间的平均 RMSD 为 0.32 Å,其中重原子偏差最小。
  • 该模型在重建过程中成功保持了精确的化学组成和键类型,量子化学方法验证了其高有效性。
  • 氢原子在几何优化后对 RMSD 偏差贡献最大,但其位置对化学功能影响较小,支持该模型对重原子精度的专注。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。