Skip to main content
QUICK REVIEW

[论文解读] A Deep Generative Model for Fragment-Based Molecule Generation

Marco Podda, Davide Bacciu|arXiv (Cornell University)|Feb 28, 2020
Machine Learning in Materials Science参考文献 29被引用 35
一句话总结

论文介绍了一种基于片段的分子生成语言模型,使用 BRICS 基分解和低频掩蔽来提升有效性和唯一性,在与基于图的方法相比中取得竞争性结果。

ABSTRACT

Molecule generation is a challenging open problem in cheminformatics. Currently, deep generative approaches addressing the challenge belong to two broad categories, differing in how molecules are represented. One approach encodes molecular graphs as strings of text, and learns their corresponding character-based language model. Another, more expressive, approach operates directly on the molecular graph. In this work, we address two limitations of the former: generation of invalid and duplicate molecules. To improve validity rates, we develop a language model for small molecular substructures called fragments, loosely inspired by the well-known paradigm of Fragment-Based Drug Design. In other words, we generate molecules fragment by fragment, instead of atom by atom. To improve uniqueness rates, we present a frequency-based masking strategy that helps generate molecules with infrequent fragments. We show experimentally that our model largely outperforms other language model-based competitors, reaching state-of-the-art performances typical of graph-based approaches. Moreover, generated molecules display molecular properties similar to those in the training sample, even in absence of explicit task-specific supervision.

研究动机与目标

  • 通过利用受 Fragment-Based Drug Design (FBDD) 启发的片段级生成,解决基于 SMILES 的生成器的高无效性和重复问题。
  • 通过生成化学上合理的片段及片段之间的有效连接来提高分子有效性。
  • 通过一种掩蔽策略在生成过程中提升稀有片段的权重,从而增强分子唯一性。
  • 尽管使用更简单的基于片段的表示,仍展示出与基于图的生成器相当的性能。

提出的方法

  • 将分子分解为按顺序排列的 BRICS 片段序列,采用从左到右的 SMILES 指引分解并附带虚拟连接点。
  • 构建片段词汇表,通过带负采样的 skip-gram 模型训练片段嵌入以捕捉上下文相似性。
  • 使用带有 GRU 的编码器-解码器式 VAE 体系结构;潜变量 z 采样后用于初始化解码器。
  • 使用教师 forcing 进行训练以最大化片段序列的对数似然,并通过 KL 散度项正则化至高斯空间。
  • 引入 Low-Frequency Masking 将罕见片段替换为基于频率的标记,使生成过程中可以采样罕见片段。
  • 在生成阶段,采样潜变量 z,对片段序列进行贪婪采样并从片段重构有效分子;强制执行连接点约束。

实验结果

研究问题

  • RQ1相较于逐原子 SMILES 生成模型,基于片段的生成是否能提高有效率?
  • RQ2Low-Frequency Masking (LFM) 是否能提高生成分子的唯一性和多样性?
  • RQ3在有效性、新颖性和唯一性方面,基于片段的 LM 生成与基于图的分子生成器相比如何?

主要发现

模型模型族数据集有效性新颖性唯一性
ChemVAELMZINC0.1700.9800.310
GrammarVAELMZINC0.3101.0000.108
SDVAELMZINC0.435--
GraphVAEGraphZINC0.1401.0000.316
CGVAEGraphZINC1.0001.0000.998
NeVAEGraphZINC1.0000.9991.000
OursLMZINC1.0000.9920.460
Ours (LFM)LMZINC1.0000.9950.998
OursLMPCBA1.0000.9810.108
Ours (LFM)LMPCBA1.0000.9910.972
  • 基于片段的 LM 在 ZINC 和 PCBA 数据集上实现完美有效性,优于 LM 基线并在有效性上达到与最先进的基于图的方法相当。
  • LM 和 LFM 变体的唯一性都有所提升,使用 LFM 时提升更大。
  • LFM 在 PCBA 上带来显著改进,使 LM 的性能更接近最先进的图模型。
  • 与基于图的模型相比,LFM 变体在 ZINC/PCBA 任务上的唯一性更具竞争力,甚至优于之。
  • 生成的分子即使在没有特定任务监督的情况下,也表现出与训练数据相似的结构特征和药物性状。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。