[论文解读] Learning Multimodal Graph-to-Graph Translation for Molecular Optimization
本文提出了一种用于分子优化的多模态图到图翻译模型,采用带潜码的连接树编码器-解码器和对抗性支架正则化,在若干任务上实现了最先进的结果并且输出多样。
We view molecular optimization as a graph-to-graph translation problem. The goal is to learn to map from one molecular graph to another with better properties based on an available corpus of paired molecules. Since molecules can be optimized in different ways, there are multiple viable translations for each input graph. A key challenge is therefore to model diverse translation outputs. Our primary contributions include a junction tree encoder-decoder for learning diverse graph translations along with a novel adversarial training method for aligning distributions of molecules. Diverse output distributions in our model are explicitly realized by low-dimensional latent vectors that modulate the translation process. We evaluate our model on multiple molecular optimization tasks and show that our model outperforms previous state-of-the-art baselines.
研究动机与目标
- 将分子优化动机化为一个带并行数据的图到图翻译问题。
- 通过在解码阶段引入低维潜在码来实现多样(多模态)输出。
- 通过对抗性支架正则化,确保化学有效性和目标领域的一致性。
- 利用基于连接树的编码器-解码器对分子图进行分层生成以确保有效性。
- 在多种性质优化任务上展示相较基线的改进。
提出的方法
- 使用图消息传递,通过共享的连接树和图编码器对分子进行编码。
- 先用树状GRU与注意力机制解码出一个连接树以预测支架,然后再从簇中组装图。
- 引入低维潜在码 z 以捕捉多模态翻译,并用变分目标进行训练。
- 对连续支架表示应用对抗正则化,使翻译输出与目标领域对齐。
- 用上下文损失(Eq. 10)训练图解码器,并在解码器嵌入上利用对抗(WGAN-GP)目标以强化支架真实感。
- 可选地,使用带有 KL 项的 VAE 式目标以鼓励潜在码符合先验分布。
实验结果
研究问题
- RQ1一个多模态图到图翻译框架是否能够从成对数据中学习出多样、提升性质的分子映射?
- RQ2基于连接树的编码器-解码器是否比基于序列或扁平图的方法在有效性和生成质量方面有提升?
- RQ3潜在码是否能够在不牺牲翻译精度或化学有效性的前提下实现有意义的多样性?
- RQ4对抗性支架正则化是否有助于使翻译后的分子与目标领域分布对齐?
- RQ5与 MMPA、JT-VAE、GCPN 和 VSeq2Seq 基线相比,该方法在惩罚性 logP、QED 和 DRD2 优化任务上的表现如何?
主要发现
| Table Headers translated to Chinese? | Method | δ=0.6 (改进) | δ=0.6 (多样性) | δ=0.4 (改进) | δ=0.4 (多样性) | 改进 | 多样性 |
|---|---|---|---|---|---|---|---|
| MMPA | 1.65±1.44 | 0.329 | 3.29±1.12 | 0.496 | - | - | |
| JT-VAE | 0.28±0.79 | - | 1.03±1.39 | - | - | - | |
| GCPN | 0.79±0.63 | - | 2.49±1.30 | - | - | - | |
| VSeq2Seq | 2.33±1.17 | 0.331 | 3.37±1.75 | 0.471 | - | - | |
| VJTNN | 2.33±1.24 | 0.333 | 3.55±1.67 | 0.480 | - | - |
- 该模型在惩罚性 logP 上超过基线,展现更高的改进幅度且在两个相似度阈值下输出更具多样性。
- 在 QED 和 DRD2 任务上,该方法(VJTNN 和 VJTNN+GAN)显示出更高的成功率,以及相较基线的多样性和新颖性指标的竞争力。
- VJTNN+GAN 相比 VJTNN 提供了边际的多样性提升,在明确目标领域下对 QED 和 DRD2 具有强劲表现。
- 该方法在利用并行数据以提升样本效率方面,产生多样且新颖的分子,同时超越基于规则的 MMPA 方法。
- 基于连接树的编码器-解码器配合隐式多模态解码,达到更优的翻译准确性和性质改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。