[论文解读] SynFlowNet: Design of Diverse and Novel Molecules with Synthesis Constraints
SynFlowNet 使用带有反应为基础的动作空间的 GFlowNet 来生成可合成的分子,具有高多样性和有利的类药性特征。它在合成性方面优于基于片段的 GFlowNet,同时保持多样性。
Generative models see increasing use in computer-aided drug design. However, while performing well at capturing distributions of molecular motifs, they often produce synthetically inaccessible molecules. To address this, we introduce SynFlowNet, a GFlowNet model whose action space uses chemical reactions and purchasable reactants to sequentially build new molecules. By incorporating forward synthesis as an explicit constraint of the generative mechanism, we aim at bridging the gap between in silico molecular generation and real world synthesis capabilities. We evaluate our approach using synthetic accessibility scores and an independent retrosynthesis tool to assess the synthesizability of our compounds, and motivate the choice of GFlowNets through considerable improvement in sample diversity compared to baselines. Additionally, we identify challenges with reaction encodings that can complicate traversal of the MDP in the backward direction. To address this, we introduce various strategies for learning the GFlowNet backward policy and thus demonstrate how additional constraints can be integrated into the GFlowNet MDP framework. This approach enables our model to successfully identify synthesis pathways for previously unseen molecules.
研究动机与目标
- 推动具备可确保合成路径的合成感知型从头分子设计。
- 提出一个以经文献记录的化学反应和可购买反应物为动作空间的 GFlowNet 框架。
- 证明在合成限制下的生成能够获得与或优于现有指标的合成性与质量度量。
- 将以反应为基础的动作空间与基于片段的 GFlowNet 在多样性、SA/QED 和合成路径方面进行比较。
提出的方法
- 定义五种前向动作类型(Stop、AddFirstReactant、ReactUni、ReactBi、AddReactant),通过化学反应和反应物来构建分子。
- 用 SMARTS 模板表示反应,并使用预先计算的掩码来确保兼容性。
- 用图变换器对前向与后向策略进行参数化,并为每种动作类型使用单独的多层感知机(MLP)。
- 使用轨迹平衡目标进行训练,以学习状态流和策略。
- 使用来自预训练代理模型预测的 sEH 结合能成正比的奖励,并通过温度参数 beta 对奖励进行调制。
- 使用 QED、SA Score、SCScore、配体效率、有效性、唯一性和多样性进行评估,并加上 AiZynthFinder 的逆向合成验证。

实验结果
研究问题
- RQ1一个在化学驱动的动作空间上训练的 GFlowNet 是否能够生成在奖励和多样性方面与基于片段的动作空间相当或更好分子的?
- RQ2基于反应的动作空间 是否 能 提高生成分子的合成性(以 SA/SC 分数和逆向合成工具评估)?
主要发现
- SynFlowNet 在 SA 和 SC 分数方面优于基于片段的 GFlowNet,并且在 QED 分数上也更好。
- SynFlowNet 的配体效率平均水平更高。
- 配对的 Tanimoto 多样性(Morgan 指纹)为 0.81,表明在受限的动作空间下仍保持多样性。
- AiZynthFinder 逆向合成显示,47% 的 SynFlowNet 分子具有可行路线,而片段 GFlowNet 为 0%。
- SynFlowNet 的分子在四个指标上与 ChEMBL 的 sEH 活性剂相吻合(除了 QED)。
- SynFlowNet 实现了合成感知的生成,大约前位分子的一半具备可行的合成路线。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。