[论文解读] MolGAN: An implicit generative model for small molecular graphs
MolGAN 引入了一种隐式、无似然估计的基于生成对抗网络的模型,直接生成小分子图,并使用强化学习目标来优化化学性质,在 QM9 上表现出高有效性和新颖性。它在图表示上运作,具有对置换不变的判别器和奖励网络。
Deep generative models for graph-structured data offer a new angle on the problem of chemical synthesis: by optimizing differentiable models that directly generate molecular graphs, it is possible to side-step expensive search procedures in the discrete and vast space of chemical structures. We introduce MolGAN, an implicit, likelihood-free generative model for small molecular graphs that circumvents the need for expensive graph matching procedures or node ordering heuristics of previous likelihood-based methods. Our method adapts generative adversarial networks (GANs) to operate directly on graph-structured data. We combine our approach with a reinforcement learning objective to encourage the generation of molecules with specific desired chemical properties. In experiments on the QM9 chemical database, we demonstrate that our model is capable of generating close to 100% valid compounds. MolGAN compares favorably both to recent proposals that use string-based (SMILES) representations of molecules and to a likelihood-based method that directly generates graphs, albeit being susceptible to mode collapse. Code at https://github.com/nicola-decao/MolGAN
研究动机与目标
- 通过直接生成分子图而不是 SMILES 字符串来驱动从头药物设计。
- 开发一个隐式、无似然的小图生成器,以避免图匹配或节点排序启发式方法。
- 将 GAN 与强化学习结合起来,使生成向所期望的化学性质倾斜。
- 通过基于关系型GCN 的判别器和奖励网络实现对置换不变的图处理。
提出的方法
- 将分子表示为无向图,具有节点类型(原子)和边类型(键类型)。
- 使用生成器 G 输出表示节点类型分布的稠密矩阵 X 和边类型分布的 A;通过类别采样对离散图进行采样。
- 在图输入上使用关系型 GCN 训练一个置换不变的判别器 D 和一个奖励网络 R̂。
- 优化联合损失 L(θ)=λ·L_WGAN(θ)+(1−λ)·L_RL(θ),以在真实度和性质优化之间取得平衡。
- 应用确定性策略梯度(受 DDPG 启发)与可微奖励预测器,引导图生成朝向所期望的性质。
- 探索三种离散化变体(连续、Gumbel 噪声、直通 Gumbel-Softmax)以在不可微采样上实现基于梯度的训练。
实验结果
研究问题
- RQ1MolGAN 能否在不依赖 SMILES 表示的情况下直接生成有效的分子图?
- RQ2将基于 GAN 的生成与基于 RL 的性质优化相结合,是否在有效性、新颖性以及溶解度方面优于先前的基于图或基于 SMILES 的方法?
- RQ3权衡系数 λ 如何影响有效性、唯一性、新颖性和性质分数?
- RQ4确定性策略梯度方法(DDPG)在高维图生成任务中是否有效?
- RQ5基于图的判别器和奖励网络对 QM9 上的生成质量有何影响?
主要发现
- MolGAN 在 QM9 的子集上实现接近 100% 的有效性,在有效性和性质分数方面明显优于一些基于 SMILES 和基于似然的图生成器。
- 较低的 λ 值(偏向 GAN 目标)带来更高的有效性,表明 RL 对无效输出有较强惩罚。
- 在可比设置下,MolGAN 的有效性及溶解度/药物相似度/可合成性分数高于 ORGAN 和若干基于 VAE 的基线,在 QM9 上。
- 在 QM9 上训练 MolGAN 可获得较高的有效性和竞争力的目标分数,且训练时间比逐序 SMILES 基方法更快。
- 所有实验都报告了向模式崩溃的趋势(较低的唯一性分数),需要早停和奖励网络的预训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。