Skip to main content
QUICK REVIEW

[论文解读] Geometric Deep Learning for Molecular Crystal Structure Prediction

Michael Kilgour, Jutta Rogal|arXiv (Cornell University)|Jan 1, 2023
Computational Drug Discovery Methods被引用 1
一句话总结

本文提出 MolXtalNet-D 和 MolXtalNet-S 两种几何深度学习模型,仅通过原子坐标即可预测分子晶体密度并排序晶体结构,无需昂贵的能量计算。这些模型在密度预测中实现低于 2% 的平均绝对误差,在区分真实与虚假晶体结构方面表现出高准确度,可高效集成至晶体结构预测工作流中。

ABSTRACT

We develop and test new machine learning strategies for accelerating molecular crystal structure ranking and crystal property prediction using tools from geometric deep learning on molecular graphs. Leveraging developments in graph-based learning and the availability of large molecular crystal datasets, we train models for density prediction and stability ranking which are accurate, fast to evaluate, and applicable to molecules of widely varying size and composition. Our density prediction model, MolXtalNet-D, achieves state of the art performance, with lower than 2% mean absolute error on a large and diverse test dataset. Our crystal ranking tool, MolXtalNet-S, correctly discriminates experimental samples from synthetically generated fakes and is further validated through analysis of the submissions to the Cambridge Structural Database Blind Tests 5 and 6. Our new tools are computationally cheap and flexible enough to be deployed within an existing crystal structure prediction pipeline both to reduce the search space and score/filter crystal candidates.

研究动机与目标

  • 开发快速、准确且可泛化的机器学习模型,用于分子晶体结构预测,避免昂贵的量子化学能量评估。
  • 利用分子图上的几何深度学习,仅基于原子坐标的结构信息预测晶体密度并排序晶体结构。
  • 通过筛选不合理的候选结构并高效评分稳定多晶型,降低晶体结构预测的计算成本。
  • 实现这些模型与现有晶体结构预测工作流的集成,以实现更快、更可扩展的搜索。
  • 在包含剑桥结构数据库盲测 5 和 6 的大规模多样化数据集上验证模型。

提出的方法

  • 模型基于从晶体结构生成的分子图进行训练,采用几何深度学习技术,编码原子排列的空间与拓扑特征。
  • 图神经网络架构处理原子坐标和元素类型,学习结构表征,无需能量计算。
  • 密度预测模型(MolXtalNet-D)通过最小化大规模实验与模拟晶体数据集上的平均绝对误差损失函数进行训练。
  • 结构排序模型(MolXtalNet-S)利用学习到的结构嵌入,区分真实实验晶体与合成生成的晶体。
  • 可微分超胞构建器通过可微变换从原胞参数生成超胞,支持端到端训练,为未来生成建模提供支持。
  • 特征包括几何描述符如堆积系数、径向分布函数和惯性矩,因剑桥结构数据库中温度与压力报告不一致,故未包含。

实验结果

研究问题

  • RQ1仅使用原子坐标而无需能量评估,几何深度学习模型能否准确预测晶体密度?
  • RQ2基于结构的模型能否有效排序晶体候选结构,并准确区分真实实验结构与合成假结构?
  • RQ3这些模型在不同分子组成与晶体体系间的表现如何?
  • RQ4这些模型在多大程度上可降低晶体结构预测工作流的计算成本?
  • RQ5在剑桥结构数据库盲测 5 和 6 等基准数据集上,模型表现如何?

主要发现

  • MolXtalNet-D 在大规模多样化测试数据集上的晶体密度预测中,平均绝对误差低于 2%,创下新SOTA纪录。
  • MolXtalNet-S 在盲测 6 数据上成功以高准确度区分真实实验晶体与合成生成的晶体。
  • 模型在不同分子组成与晶体体系间表现出良好泛化能力,即使未进行多晶型过滤,也几乎无过拟合现象。
  • 模型计算效率高,可集成至现有晶体结构预测工作流中,以缩小搜索空间并过滤候选结构。
  • 可微分超胞构建器支持未来生成模型的训练,实现端到端优化。
  • 模型在盲测 5 和 6 的目标上表现优异,对各类官能团与元素组成均保持一致的排序准确度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。