[论文解读] Junction Tree Variational Autoencoder for Molecular Graph Generation
JT-VAE 通过两阶段过程生成分子图:先是有效子结构的连接树,然后用图解码器将子图组装成完整分子,从而实现100%有效性和强属性优化。
We seek to automate the design of molecules based on specific chemical properties. In computational terms, this task involves continuous embedding and generation of molecular graphs. Our primary contribution is the direct realization of molecular graphs, a task previously approached by generating linear SMILES strings instead of graphs. Our junction tree variational autoencoder generates molecular graphs in two phases, by first generating a tree-structured scaffold over chemical substructures, and then combining them into a molecule with a graph message passing network. This approach allows us to incrementally expand molecules while maintaining chemical validity at every step. We evaluate our model on multiple tasks ranging from molecular generation to optimization. Across these tasks, our model outperforms previous state-of-the-art baselines by a significant margin.
研究动机与目标
- 通过学习便于属性优化和生成有效图的连续表征来实现分子设计自动化。
- 通过直接对分子图进行建模并使用化学上有效的中间体,来克服基于 SMILES 的局限性。
- 开发一个两阶段解码器(先连接树再图结构)以在生成过程中确保可行性。
提出的方法
- 将分子表示为覆盖有效子结构(簇)的连接树。
- 使用带有信息传递的树和图编码器将连接树和完整分子图编码为潜在向量 z_T 和 z_G。
- 通过先重建连接树,然后用图解码器将子图组装成完整的分子图来解码。
- 使用变分自编码器目标和对树的拓扑预测与标签预测的交叉熵损失进行训练。
- 在解码过程中通过将簇标签约束为化学兼容选项来确保化学有效性。
实验结果
研究问题
- RQ1通过带有连接树表示的直接图基生成,是否能在化学有效性和多样性方面优于基于 SMILES 的方法?
- RQ2两阶段的 JT-VAE 是否能在重构准确性、先验采样时的有效性以及面向属性的优化方面得到提升?
- RQ3JT-VAE 在分子属性的贝叶斯优化和约束优化中表现如何?
主要发现
| 方法 | 重构 | 有效性 |
|---|---|---|
| CVAE | 44.6% | 0.7% |
| GVAE | 53.7% | 7.2% |
| SD-VAE | 76.2% | 43.5% |
| GraphVAE | - | 13.5% |
| Atom-by-Atom LSTM | - | 89.2% |
| JT-VAE | 76.7% | 100.0% |
- 在从先验解码时,JT-VAE 实现了 76.7% 的重构准确率以及 100% 的有效性。
- JT-VAE 在分子生成与优化任务中显著优于基于 SMILES 的基线。
- 在贝叶斯优化中,JT-VAE 找到的最佳分子具有比基线更高的性质得分(Top1 分数 5.30 对 SD-VAE 的 4.04)。
- 基于 JT-VAE 表征训练的稀疏高斯过程比基线具有更好的预测性能(对数似然 LL = -1.658,均方根误差 RMSE = 1.290)。
- 带相似性约束(delta = 0.4)的约束优化显示最高 80% 的成功率,平均提升为 0.84。
- 由于连接树分解,模型的解码在簇数量上的复杂度呈线性,实现了高效解码。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。