[论文解读] Linking the Neural Machine Translation and the Prediction of Organic Chemistry Reactions
这篇论文将反应产物预测问题视为神经机器翻译,使用带门控循环单元的序列到序列模型,配合 SMILES 分词器与注意力机制,将反应物和试剂翻译成产物,训练数据来自专利反应和 Wade 教科书中的反应。
Finding the main product of a chemical reaction is one of the important problems of organic chemistry. This paper describes a method of applying a neural machine translation model to the prediction of organic chemical reactions. In order to translate 'reactants and reagents' to 'products', a gated recurrent unit based sequence-to-sequence model and a parser to generate input tokens for model from reaction SMILES strings were built. Training sets are composed of reactions from the patent databases, and reactions manually generated applying the elementary reactions in an organic chemistry textbook of Wade. The trained models were tested by examples and problems in the textbook. The prediction process does not need manual encoding of rules (e.g., SMARTS transformations) to predict products, hence it only needs sufficient training reaction sets to learn new types of reactions.
研究动机与目标
- 在不手动编码转换规则的情况下,推动预测主要反应产物。
- 将反应表示为 SMILES,并将预测视为从反应物/试剂到产物的翻译。
- 评估真实专利数据驱动的训练数据与生成的模板数据对预测性能的影响。
提出的方法
- 使用基于 PEG 的解析器对反应的 SMILES 表示进行分词,以创建输入/输出标记序列。
- 使用带注意力的三层 GRU 编码器-解码器来建模 p(y|x),从翻转的输入标记生成产物。
- 训练两种模型:一个在真实的专利反应上,另一个在生成的 Wade 模板反应上,然后进行比较。
- 对输入/输出序列进行归一化和分桶,以支持使用 600 维嵌入的可扩展训练。
- 通过去除原子映射并筛选极端反应示例来处理训练数据,使其符合模型输入约束。
实验结果
研究问题
- RQ1神经翻译模型在不使用手工设计的 SMARTS 规则的情况下,是否能够预测有机反应产物?
- RQ2在真实专利反应上进行训练是否比在生成的初级反应模板上训练能提高预测?
- RQ3模型对更长的输入序列和更复杂底物的泛化能力有多好?
- RQ4注意力机制在对齐输入标记与产物生成方面的影响是什么?
主要发现
- 基于真实专利的训练集相较于仅使用生成的模板反应可以提高产物预测。
- 该模型能够推断出一些未编码的反应模式,包括芳香族底物。
- 较长的输入序列(更多原子)会提高错误率并降低完全正确的预测,但 real+gen 模型保持相对稳定的 Tanimoto 相似度并降低无效 SMILES 的比例。
- 注意力机制将解码器步骤对齐到编码器标记,表明通过更好地映射反应位点有潜在改进。
- 在更大、更具多样性的数据集(real+gen)上训练,模型生成有效的产物 SMILES 的可靠性高于仅在生成数据上训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。