Skip to main content
QUICK REVIEW

[论文解读] Molecular Hypergraph Grammar with its Application to Molecular Optimization

Hiroshi Kajino|arXiv (Cornell University)|Sep 8, 2018
Machine Learning in Materials Science参考文献 19被引用 23
一句话总结

该论文提出分子超图语法变分自编码器(MHG-VAE),一种利用分子超图语法规则(MHG)编码化学价态和结构约束的方法,使单一变分自编码器(VAE)能够100%生成合法分子。在受限属性评估条件下,MHG-VAE在分子优化任务中优于最先进的基于VAE和强化学习的方法,以更少的查询次数实现了更优的属性得分。

ABSTRACT

Molecular optimization aims to discover novel molecules with desirable properties. Two fundamental challenges are: (i) it is not trivial to generate valid molecules in a controllable way due to hard chemical constraints such as the valency conditions, and (ii) it is often costly to evaluate a property of a novel molecule, and therefore, the number of property evaluations is limited. These challenges are to some extent alleviated by a combination of a variational autoencoder (VAE) and Bayesian optimization (BO). VAE converts a molecule into/from its latent continuous vector, and BO optimizes a latent continuous vector (and its corresponding molecule) within a limited number of property evaluations. While the most recent work, for the first time, achieved 100% validity, its architecture is rather complex due to auxiliary neural networks other than VAE, making it difficult to train. This paper presents a molecular hypergraph grammar variational autoencoder (MHG-VAE), which uses a single VAE to achieve 100% validity. Our idea is to develop a graph grammar encoding the hard chemical constraints, called molecular hypergraph grammar (MHG), which guides VAE to always generate valid molecules. We also present an algorithm to construct MHG from a set of molecules.

研究动机与目标

  • 为解决在分子优化过程中严格遵循价态和连接性约束时生成化学合法分子的挑战。
  • 克服基于SMILES的VAE中常见的解码错误问题,即神经网络生成无法解析为分子的无效字符串。
  • 开发一种单一架构的VAE,在无需辅助网络的情况下保持高生成有效性,简化训练并提升泛化能力。
  • 通过结合MHG与变分自编码及贝叶斯优化,实现在有限属性评估下的高效分子优化。
  • 证明MHG-VAE在样本效率和属性得分表现上优于基于VAE和强化学习的方法。

提出的方法

  • 提出分子超图语法(MHG),一种在原子和化学键层面编码分子结构的形式化方法,包括立体化学和价态约束,作为可解析的树结构。
  • 利用MHG将分子表示为分层的、树状结构的超图,其中超边代表分子片段(如环、支链),节点代表原子或子结构。
  • 采用标准VAE架构,通过单一编码器-解码器对将分子映射到连续潜在空间,并借助MHG确保所有生成分子在化学上均有效。
  • 开发一种算法,通过识别常见片段及其连接模式,自动从一组输入分子中构建MHG。
  • 将MHG-VAE与贝叶斯优化(BO)结合,通过最小化属性评估次数,在潜在空间中迭代搜索高性能分子。
  • 采用两阶段协议:(1) 无限查询场景用于评估潜在空间质量;(2) 有限查询场景用于模拟现实世界中的成本约束,比较在固定查询预算下的性能表现。

实验结果

研究问题

  • RQ1通过将化学约束直接编码到结构表示中,单一VAE架构是否能实现100%的分子生成有效性?
  • RQ2在属性评估受限的情况下,MHG-VAE是否优于现有的基于VAE和强化学习的方法?
  • RQ3在相同函数评估次数下,MHG-VAE能否生成比最先进基线方法更高的目标属性得分分子?
  • RQ4与依赖辅助网络或复杂解码机制的方法相比,MHG-VAE的性能表现如何?
  • RQ5在有限查询场景下,MHG-VAE在多大程度上保持高性能,从而模拟现实实验中的约束条件?

主要发现

  • MHG-VAE通过将化学价态和连接规则直接编码到分子超图语法中,实现了100%的分子生成有效性,彻底消除了解码错误。
  • 在无限查询场景下,MHG-VAE在基于VAE的方法中表现最佳,其高斯过程回归的对数似然更高,均方根误差(RMSE)更低,优于基线方法。
  • 在有限查询场景下,MHG-VAE优于GCPN(一种最先进的基于强化学习的方法),在相同查询次数下生成的分子具有显著更高的前三名属性得分。
  • MHG-VAE生成的前50个分子的统计分析显示,其性能优于JT-VAE及其他基于VAE的模型,表明其能持续发现高质量候选分子。
  • 在有限查询场景下,MHG-VAE保持了接近最优的性能,几乎与无限查询场景下的表现相当,展现出强大的样本效率。
  • 该方法在十轮重复实验中表现稳定,其前三名属性得分和前50名平均得分均持续优于对比方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。