Skip to main content
QUICK REVIEW

[论文解读] Retrosynthesis Prediction with Conditional Graph Logic Network

Hanjun Dai, Chengtao Li|arXiv (Cornell University)|Jan 6, 2020
Machine Learning in Materials Science被引用 45
一句话总结

这篇论文提出了 Conditional Graph Logic Network (GLN),一种基于图神经网络的概率模型,用于学习反应模板何时适用,在高效分层采样和可解释预测下实现了单步逆合成的最先进准确度。

ABSTRACT

Retrosynthesis is one of the fundamental problems in organic chemistry. The task is to identify reactants that can be used to synthesize a specified product molecule. Recently, computer-aided retrosynthesis is finding renewed interest from both chemistry and computer science communities. Most existing approaches rely on template-based models that define subgraph matching rules, but whether or not a chemical reaction can proceed is not defined by hard decision rules. In this work, we propose a new approach to this task using the Conditional Graph Logic Network, a conditional graphical model built upon graph neural networks that learns when rules from reaction templates should be applied, implicitly considering whether the resulting reaction would be both chemically feasible and strategic. We also propose an efficient hierarchical sampling to alleviate the computation cost. While achieving a significant improvement of $8.1\%$ over current state-of-the-art methods on the benchmark dataset, our model also offers interpretations for the prediction.

研究动机与目标

  • 通过结合化学反应模板与神经推理来解决单步逆合成问题。
  • 将化学知识编码为逻辑规则,并通过概率图模型学习何时应用它们。
  • 在纯规则或纯神经方法之上提高可扩展性和可解释性。
  • 提供一个使用分层采样和图嵌入的高效训练/推理框架。

提出的方法

  • 将逆合成建模为给定产物 O 的模板 T 和反应物集合 R 的条件图模型,定义 p(T|O) 与 p(R|T,O)。
  • 将模板表示为通过分解的逻辑规则:在 O 中匹配产物中心 o^T,在 R 内通过子图同构匹配反应物 r_i^T。
  • 用图神经网络参数化能量项 w1、w2 和 phi 函数,以嵌入分子和子图(v1、v2、w2)。
  • 将 p(T|O) 分解为 p(o^T|O) 与 p({r^T}|O),以加速学习与推理,具有可处理的分区函数 Z(O) 和分层采样。
  • 通过使用对逻辑驱动稀疏性的有效梯度估计的 importance sampling,进行最大似然训练。
  • 使用束搜索和缓存策略来加速预测并提供可解释的反应中心与模板。

实验结果

研究问题

  • RQ1一个给定模板和反应物的条件图模型是否能提升单步逆合成的准确性?
  • RQ2如何将逻辑规则驱动的匹配与神经嵌入结合,以实现可解释性与可扩展性?
  • RQ3哪些高效的推理技术(如分层采样、束搜索)能在大型模板集上实现可扩展学习?

主要发现

方法(设置)Top-1Top-3Top-5Top-10Top-20Top-50
GLN(未知)52.569.075.683.789.092.4
GLN(给定)64.279.185.290.092.393.2
Retrosim(未知)37.354.763.374.182.085.3
Retrosim(给定)52.973.881.288.191.892.9
Neuralsym(未知)44.465.372.478.982.283.1
Neuralsym(给定)55.376.081.485.186.586.9
Transformer(未知)37.957.362.7///
Transformer(给定)//////
  • GLN 在 USPTO-50k 上对现有基线实现显著提升,包括在未知反应类别设置下 top-1 精度提升 8.1%。
  • 带有反应类别先验的 GLN 在 top-k 指标上达到或超过基于规则和神经 Seq2Seq 的基线表现。
  • 该方法可扩展到大型数据集(USPTO-full)并在与强基线相比时保持有竞争力的 top-k 准确率。
  • 模型通过可视化反应中心和与真实核对的子图模式嵌入,提供可解释的预测。
  • 通过分解模板建模、缓存和分层采样实现高效推理,训练可行(在 USPTO-50k 上约 12 小时,GTX 1080 Ti),并具有实用的预测时间。
  • 该框架支持在已知反应类型 c 的条件下通过受限模板集进行可选条件化,从而实现定向逆合成规划。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。