[论文解读] De Novo Molecular Generation via Connection-aware Motif Mining
MiCaM 从大型分子库中挖掘与连接感知相关的基元,并在生成器中使用它们来创建全新分子,在分布与目标导向基准上实现最先进的结果。
De novo molecular generation is an essential task for science discovery. Recently, fragment-based deep generative models have attracted much research attention due to their flexibility in generating novel molecules based on existing molecule fragments. However, the motif vocabulary, i.e., the collection of frequent fragments, is usually built upon heuristic rules, which brings difficulties to capturing common substructures from large amounts of molecules. In this work, we propose a new method, MiCaM, to generate molecules based on mined connection-aware motifs. Specifically, it leverages a data-driven algorithm to automatically discover motifs from a molecule library by iteratively merging subgraphs based on their frequency. The obtained motif vocabulary consists of not only molecular motifs (i.e., the frequent fragments), but also their connection information, indicating how the motifs are connected with each other. Based on the mined connection-aware motifs, MiCaM builds a connection-aware generator, which simultaneously picks up motifs and determines how they are connected. We test our method on distribution-learning benchmarks (i.e., generating novel molecules to resemble the distribution of a given training set) and goal-directed benchmarks (i.e., generating molecules with target properties), and achieve significant improvements over previous fragment-based baselines. Furthermore, we demonstrate that our method can effectively mine domain-specific motifs for different tasks.
研究动机与目标
- 通过超越启发式基元词汇来推动改进的基元碎片级从头分子生成。
- 开发一种数据驱动的方法,从大型分子库中挖掘频繁且具连接感知性的基元。
- 创建一个生成器,能够同时选择基元并确定它们如何连接以构建有效分子。
- 在标准基准上展示更优秀的分布学习与目标导向生成性能。
- 表明领域特定的基元可以被有效挖掘以实现特定任务的生成。
提出的方法
- 通过迭代合并频繁的邻接子图来形成连接感知的基元,从而建立基元词汇。
- 通过用 * 标记断裂键并使用用 GNN 表示的基元图来保留连接信息。
- 使用 VAE 框架将分子映射到潜在向量,并以 z 与基元表示为条件进行生成。
- 在生成时,查询要么是基元连接点,要么是当前分子位点,以决定下一个连接或环化。
- 通过在起始点和查询网络的引导下,生成要么附加一个新基元,要么将位点合并以形成环。
- 以重建损失、KL 散度正则化和性质预测损失进行训练,以使潜在空间与分子性质对齐。
实验结果
研究问题
- RQ1数据驱动的合并策略是否能够发现有意义且具连接感知性的基元,显著提升生成质量,相较于启发式词汇?
- RQ2连接感知的基元词汇加上基元感知生成器是否能在标准基准上提升分布拟合(KL 散度、FCD)以及新颖性/独特性?
- RQ3是否可以将基元词汇与网络参数共同适应于领域特定任务,以实现最先进的目标导向生成?
- RQ4控制合并操作的数量如何影响与训练数据的相似性与新颖性?
- RQ5贪婪模式与分布模式在 KL 散度/FCD 与新颖性之间是否存在权衡?
主要发现
- MiCaM 在 QM9、ZINC 和 GuacaMol 数据集上,跨所比较基线取得最佳的 KL 散度与 Fréchet ChemNet 距离(FCD)。
- MiCaM 在提高分布相似性与训练集相似性的同时,保持较高的有效性、唯一性和新颖性。
- 中等数量的合并操作(约 500 次)能够获得较高的相似性;更多的操作会增大基元尺寸与相似性,但可能降低新颖性。
- 分布式模式生成比贪婪模式产生更高的新颖性,而贪婪模式则略微提高相似性指标。
- 在目标导向基准上,MiCaM 获得强劲分数,结合迭代目标增强时,在多项任务上实现了最先进的结果。
- 案例研究显示领域特定的基元驱动复杂分子的目标性质改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。