[论文解读] Learning Graph Models for Template-Free Retrosynthesis.
该论文提出了一种基于图的逆合成模型,通过学习将目标分子转化为合成子(synthons)的图编辑操作来预测分子转化,随后在不进行完整分子生成的情况下扩展合成子为完整前体。该方法在USPTO-50k数据集上实现了11.7%的绝对性能提升,在罕见反应上提升了4%,显著提升了泛化能力与化学策略的一致性。
Retrosynthesis prediction is a fundamental problem in organic synthesis, where the task is to identify precursor molecules that can be used to synthesize a target molecule. Despite recent advancements in neural retrosynthesis algorithms, they are unable to fully recapitulate the strategies employed by chemists and do not generalize well to infrequent reaction types. In this paper, we propose a graph-based approach that capitalizes on the idea that the graph topology of precursor molecules is largely unaltered during the reaction. The model first predicts the set of graph edits transforming the target into incomplete molecules called synthons. Next, the model learns to expand synthons into complete molecules by attaching relevant leaving groups. Since the model operates at the level of molecular fragments, it avoids full generation, greatly simplifying the underlying architecture and improving its ability to generalize. The model yields $11.7\%$ absolute improvement over state-of-the-art approaches on the USPTO-50k dataset, and a $4\%$ absolute improvement on a rare reaction subset of the same dataset.
研究动机与目标
- 解决神经网络逆合成模型在罕见反应类型上泛化能力有限的问题。
- 通过建模分子拓扑结构的变化,提升与化学家设计的逆合成策略的一致性。
- 通过在分子片段层面操作而非完整分子生成,简化模型架构并增强泛化能力。
- 将逆合成转化建模为分子结构上的图编辑操作。
- 通过引入相关离去基团,实现合成子向完整前体的有效扩展。
提出的方法
- 该模型预测一系列图编辑操作,将目标分子转化为不完整的前体片段,即合成子。
- 利用反应过程中分子图拓扑结构的稳定性,聚焦于局部结构变化。
- 通过学习到的规则,将合成子与适当的离去基团连接,扩展为完整分子。
- 该方法在片段层面运行,避免对整个分子进行生成式建模。
- 使用图神经网络编码分子结构并预测编辑操作。
- 模型在逆合成转化数据上端到端训练,通过拓扑编辑学习反应的逆过程。
实验结果
研究问题
- RQ1基于图的模型若能学习局部分子编辑,是否能超越现有神经网络逆合成模型?
- RQ2与完整分子操作相比,在合成子上操作是否能提升对罕见反应类型的泛化能力?
- RQ3在多大程度上保持分子图拓扑结构能提升逆合成策略的保真度?
- RQ4该模型能否有效学习通过离去基团连接将合成子扩展为有效前体?
- RQ5与最先进方法相比,该模型在分布外反应上的表现如何?
主要发现
- 在USPTO-50k数据集上,该模型在top-1准确率上相比最先进方法实现了11.7%的绝对提升。
- 在USPTO-50k基准中罕见反应子集上,该方法实现了4%的绝对性能提升。
- 由于采用片段级、基于编辑的操作,该方法对不频繁反应类型的泛化能力更强。
- 通过避免完整分子生成,模型在保持高性能的同时简化了架构。
- 通过保持拓扑结构的图编辑,该方法更好地捕捉了化学上有意义的逆合成策略。
- 该模型的性能提升在复杂或不常见的反应模式中尤为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。