Skip to main content
QUICK REVIEW

[论文解读] Hierarchical Graph-to-Graph Translation for Molecules

Wengong Jin, Regina Barzilay|arXiv (Cornell University)|Jun 11, 2019
Computational Drug Discovery Methods参考文献 50被引用 28
一句话总结

该论文提出 HierG2G,一种用于分子优化的完全自回归、分层图到图翻译模型,通过多分辨率框架联合预测子结构及其连接方式。通过在子结构生成与连接解析之间交错进行,并采用多层级编码器,该模型在 QED 和 DRD2 任务上分别实现 3.3% 和 8.1% 的性能提升,同时推理速度比以往基于子结构的方法快 6.3 倍。

ABSTRACT

The problem of accelerating drug discovery relies heavily on automatic tools to optimize precursor molecules to afford them with better biochemical properties. Our work in this paper substantially extends prior state-of-the-art on graph-to-graph translation methods for molecular optimization. In particular, we realize coherent multi-resolution representations by interweaving the encoding of substructure components with the atom-level encoding of the original molecular graph. Moreover, our graph decoder is fully autoregressive, and interleaves each step of adding a new substructure with the process of resolving its attachment to the emerging molecule. We evaluate our model on multiple molecular optimization tasks and show that our model significantly outperforms previous state-of-the-art baselines.

研究动机与目标

  • 为解决先前图到图翻译模型在分子优化中的局限性,特别是子结构与连接决策之间缺乏自回归依赖关系的问题。
  • 通过将生成过程分解为分层步骤,提升解码效率,避免连接枚举过程中的组合爆炸问题。
  • 通过在翻译过程中引入期望的化学性质作为输入条件,实现条件化分子生成。
  • 设计一种多分辨率编码方案,以与分层解码过程相匹配的方式捕捉原子级和子结构级表征。
  • 在仅使用包含稀有性质组合的有限数据进行训练时,仍能实现条件翻译的泛化能力。

提出的方法

  • 模型采用三级分层编码器:原子级图卷积、子结构级消息传递和连接点级注意力,实现多分辨率表征学习。
  • 解码器为完全自回归结构,通过一系列三元组预测生成分子:(在何处扩展,新子结构类型,其连接点)。
  • 在每一步中交错进行子结构预测与连接点预测,使模型能够基于先前的连接决策来条件化未来的子结构选择。
  • 编码器以三种分辨率处理分子:原子、子结构(通过连接树)和连接点,通过跨层级注意力机制保持表征一致性。
  • 通过将解码器条件化于期望的性质向量(如 QED、DRD2),支持条件化翻译,实现目标优化。
  • 架构采用基于 LSTM 的消息传递网络(MPN)作为编码器和解码器的骨干,结合分层注意力机制以整合多层级信息。

实验结果

研究问题

  • RQ1一个完全自回归的解码器,若能交错进行子结构与连接点预测,是否能优于分阶段进行的方法,从而提升分子图生成性能?
  • RQ2多分辨率编码如何增强模型生成多样化且化学上合理的分子的能力?
  • RQ3当在有限数据上训练且数据中仅含稀有性质组合时,条件化翻译在多大程度上能实现泛化?
  • RQ4与基于原子级或仅基于连接树的解码方法相比,基于分层结构的解码是否在准确率与效率上更具优势?
  • RQ5如分层编码与自回归解码等架构组件,在分子优化任务中对性能提升的贡献程度如何?

主要发现

  • 在 QED 优化任务中,HierG2G 达到 76.9% 的成功率,相比先前最先进模型 JTNN(59.9%)提升 17 个百分点。
  • 在 DRD2 优化任务中,HierG2G 达到 85.9% 的成功率,相比 JTNN 提升 10.9%,相比 AtomG2G 基线模型提升 10.4%。
  • 由于生成步骤的高效分层分解,该模型在推理阶段的速度比 JTNN 方法快 6.3 倍。
  • 在条件化翻译中,HierG2G 在最苛刻的条件(QED 与 DRD2 同时满足)下达到 13.0% 的成功率,即使训练数据中仅有 1.6% 的样本同时满足这两个条件,仍表现出良好的泛化能力。
  • 消融实验证实,分层编码与基于结构的解码至关重要:若移除顶层子结构层,DRD2 任务性能下降 2.4%;若将分层解码替换为原子级解码,DRD2 任务性能下降 10.9%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。