Skip to main content
QUICK REVIEW

[论文解读] Recent advances in artificial intelligence for retrosynthesis

Zipeng Zhong, Jie Song|arXiv (Cornell University)|Jan 14, 2023
Machine Learning in Materials Science被引用 9
一句话总结

对 AI 驱动的单步与多步回路合成方法、分类、评估、数据集与平台的全面综述,并讨论未来方向。

ABSTRACT

Retrosynthesis is the cornerstone of organic chemistry, providing chemists in material and drug manufacturing access to poorly available and brand-new molecules. Conventional rule-based or expert-based computer-aided synthesis has obvious limitations, such as high labor costs and limited search space. In recent years, dramatic breakthroughs driven by artificial intelligence have revolutionized retrosynthesis. Here we aim to present a comprehensive review of recent advances in AI-based retrosynthesis. For single-step and multi-step retrosynthesis both, we first list their goal and provide a thorough taxonomy of existing methods. Afterwards, we analyze these methods in terms of their mechanism and performance, and introduce popular evaluation metrics for them, in which we also provide a detailed comparison among representative methods on several public datasets. In the next part we introduce popular databases and established platforms for retrosynthesis. Finally, this review concludes with a discussion about promising research directions in this field.

研究动机与目标

  • 对 AI 基于回路合成方法(单步与多步)的目标与分类进行调查。
  • 分析代表性方法的机制、性能与评估指标。
  • 总结回路合成研究中使用的数据集、数据库与平台。
  • 讨论局限性并提出有前景的未来研究方向。

提出的方法

  • 提供单步回路合成方法的分类(基于选择与基于生成)。
  • 描述基于模板与非模板生成方法及其子类别(反应物/模板选择、半模板生成、完全生成模型)。
  • 讨论模型架构(GNN、Transformers、MPNN、LSTM)和数据增强策略。
  • 回顾评估指标并在公开数据集上比较代表性方法。
  • 介绍回路合成的数据库与平台并勾画未来方向。

实验结果

研究问题

  • RQ1AI 驱动的单步与多步回路合成的主要方法有哪些?
  • RQ2基于选择、基于模板、半模板和完全模板外生成在机制与性能上有何差异?
  • RQ3用于评估回路合成方法的评估指标与数据集有哪些,代表性方法在这些基准上表现如何?
  • RQ4哪些数据库与平台支持 AI 基于回路合成,未来方向中最具前景的是哪些?

主要发现

  • 单步回路合成方法分为基于选择(反应物或模板选择)和生成基于(半模板与完全模板外生成)。
  • 基于模板的方法利用反应模板,并可使用数据增强和模板检索来处理稀有或零样本模板。
  • 半模板生成(P2S 和 S2R)和模板自由生成(完全端到端)是核心方法,具有图表示和 SMILES 表示;若干工作采用 Transformer 架构和数据增强以提升准确性和有效性。
  • 早期神经模板方法(如 NeuralSym)显示出强劲结果,但在可解释性和表征方面存在局限,催生了图基和局部模板方法如 LocalRetro。
  • 正向预测与环路一致性概念(正向验证、Cycle Consistency)被用于提升回路合成预测的准确性和反应物候选的多样性。
  • 对 SMILES 表示的数据增强和测试时的 SMILES 变体显著提升泛化能力并减少无效预测。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。