[论文解读] Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation
GCPN 引入一个通过强化学习和对抗损失训练的图卷积策略网络,用于生成优化目标属性并遵守化学规则的分子图。
Generating novel graph structures that optimize given objectives while obeying some given underlying rules is fundamental for chemistry, biology and social science research. This is especially important in the task of molecular graph generation, whose goal is to discover novel molecules with desired properties such as drug-likeness and synthetic accessibility, while obeying physical laws such as chemical valency. However, designing models to find molecules that optimize desired properties while incorporating highly complex and non-differentiable rules remains to be a challenging task. Here we propose Graph Convolutional Policy Network (GCPN), a general graph convolutional network based model for goal-directed graph generation through reinforcement learning. The model is trained to optimize domain-specific rewards and adversarial loss through policy gradient, and acts in an environment that incorporates domain-specific rules. Experimental results show that GCPN can achieve 61% improvement on chemical property optimization over state-of-the-art baselines while resembling known molecules, and achieve 184% improvement on the constrained property optimization task.
研究动机与目标
- 推动在大规模离散化学空间中设计具有期望属性的分子这一需求的必要性。
- 提出一个基于图的生成框架,能够通过环境动态整合硬化学约束。
- 利用强化学习和对抗训练直接优化领域特定属性,同时保持现实性。
提出的方法
- 将分子表示为图并通过添加节点/键的动作迭代生成。
- 将分子生成建模为带有化学感知环境的马尔可夫决策过程。
- 使用图卷积网络在扩展图上计算节点嵌入并预测动作。
- 应用 PPO 策略梯度,以优化结合领域特定属性与来自判别器的对抗损失的奖励。
- 引入专家预训练以启动学习并提升稳定性。
实验结果
研究问题
- RQ1基于图的 RL 智能体是否能够学习在化学有效性约束下生成优化领域特定属性的分子?
- RQ2对分子判别器进行对抗训练是否能在优化属性的同时提高生成分子的真实性和有效性?
- RQ3在属性优化、定向和受约束优化任务上,基于图的方法与现有最先进基线相比表现如何?
主要发现
- GCPN 在惩罚性 logP 的属性优化上相对于最佳基线提高了 61%,在受约束属性优化上平均提高 184%。
- GCPN 在任务中实现近乎完美的有效性(100.0%),并在各任务中展现出与现实分子高度相似。
- 在属性定向方面,GCPN 在成功率和多样性方面显著优于基线。
- 在 ZINC 数据集的多项目标上,GCPN 相对于 JT-VAE 和 ORGAN 在所报告的指标上表现更好。
- 基于图的表示使得逐步的价数检查成为可能,从而在所报告的结果中实现 100% 的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。