[论文解读] Predicting Organic Reaction Outcomes with Weisfeiler-Lehman Network
一种无模板方法,使用 Weisfeiler-Lehman 网络识别反应中心并对候选产物进行排序,在 USPTO 数据集上达到约 84% 和 78% 的准确率,优于模板且运行速度约快 140 倍。
The prediction of organic reaction outcomes is a fundamental problem in computational chemistry. Since a reaction may involve hundreds of atoms, fully exploring the space of possible transformations is intractable. The current solution utilizes reaction templates to limit the space, but it suffers from coverage and efficiency issues. In this paper, we propose a template-free approach to efficiently explore the space of product molecules by first pinpointing the reaction center -- the set of nodes and edges where graph edits occur. Since only a small number of atoms contribute to reaction center, we can directly enumerate candidate products. The generated candidates are scored by a Weisfeiler-Lehman Difference Network that models high-order interactions between changes occurring at nodes across the molecule. Our framework outperforms the top-performing template-based approach with a 10\% margin, while running orders of magnitude faster. Finally, we demonstrate that the model accuracy rivals the performance of domain experts.
研究动机与目标
- 激励并应对在没有预定义反应模板的情况下预测有机反应结果的挑战。
- 识别发生图编辑的最小反应中心,以约束搜索空间。
- 枚举化学上可行的候选产物并对它们进行排序,以选出真实产物。
提出的方法
- 将分子表示为带标签的图,并将反应框定为将反应物通过图编辑转换为产物。
- 使用 Weisfeiler-Lehman 网络 (WLN) 学习原子级嵌入并预测原子对的反应性分数。
- 加入全局注意力机制,以捕捉对反应中心的远端化学效应。
- 选择前 K 对原子对组成反应中心,并在该中心内枚举可行的键配置以生成候选产物。
- 使用 Weisfeiler-Lehman Difference Network (WLDN) 对候选产物进行排序,该网络建模反应物与候选物差向量之间的高阶相互作用。
- 端到端训练,损失函数包括对预测反应性的损失以及对候选物的基于Softmax的排序目标。
实验结果
研究问题
- RQ1无模板方法能否对多样化的有机反应高效地识别反应中心?
- RQ2基于 WLN 的表示和注意力是否能捕捉到对准确预测反应中心所必需的远端效应?
- RQ3在预测反应中心内枚举候选物并用 WLDN 进行排序,是否在覆盖率和准确性上优于基于模板的方法?
- RQ4在大规模的 USPTO 派生数据集上,模板无方法在速度和可扩展性方面与基于模板的方法相比如何?
主要发现
- 全局 WLN 模型(含注意力)在反应中心识别方面优于局部模型,覆盖率高(对 K=8 的覆盖率≥约 90%),并且对受远端试剂影响的中心有更好的预测。
- 使用预测的反应中心生成候选物,得到一组紧凑的候选集(在 K=6 时平均约 60 个左右),覆盖率与模板方法竞争力相当,但所需模板数量显著更少。
- WLDN 在排序准确性上优于 WLN,表明反应中心差异之间的高阶相互作用可以改善产物排序。
- 在 USPTO-15K 上,WLDN(*) 达到 83.9% P@1、93.2% P@3、和 95.2% P@5;在 USPTO 上,WLDN(*) 维持较强性能,覆盖率和排序均高于 WLN。
- 人工评估显示模型在 80 个反应上达到 69.1% 的准确率,超过研究中平均化学家的表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。