Skip to main content
QUICK REVIEW

[论文解读] All SMILES Variational Autoencoder

Zaccary Alperstein, Artem Cherkasov|arXiv (Cornell University)|May 30, 2019
Computational Drug Discovery Methods参考文献 70被引用 40
一句话总结

All SMILES VAE 通过同时处理多条 SMILES 字符串,使用堆叠的 RNN 和注意力机制对分子进行编码,然后解码为一组不重叠的 SMILES,实现在受约束的潜在空间内的最先进的性质预测和基于梯度的分子优化。

ABSTRACT

Variational autoencoders (VAEs) defined over SMILES string and graph-based representations of molecules promise to improve the optimization of molecular properties, thereby revolutionizing the pharmaceuticals and materials industries. However, these VAEs are hindered by the non-unique nature of SMILES strings and the computational cost of graph convolutions. To efficiently pass messages along all paths through the molecular graph, we encode multiple SMILES strings of a single molecule using a set of stacked recurrent neural networks, pooling hidden representations of each atom between SMILES representations, and use attentional pooling to build a final fixed-length latent representation. By then decoding to a disjoint set of SMILES strings of the molecule, our All SMILES VAE learns an almost bijective mapping between molecules and latent representations near the high-probability-mass subspace of the prior. Our SMILES-derived but molecule-based latent representations significantly surpass the state-of-the-art in a variety of fully- and semi-supervised property regression and molecular property optimization tasks.

研究动机与目标

  • 通过解决 SMILES 非唯一性和图结构复杂性,在离散的化学空间中推动更优的分子性质优化。
  • 开发一个潜在表征,捕捉分子级特征,而不是 SMILES 实现本身。
  • 通过类双射潜在映射实现高效的基于梯度的分子性质优化。
  • 在半监督和全监督的性质预测以及毒性评估方面展示最先进的性能。

提出的方法

  • 使用并行的堆叠式 RNN,从多个 SMILES 字符串对分子进行编码,在相应原子之间跨 SMILES 表示进行池化。
  • 在 SMILES 字符串之间对同源原子表示进行池化,以模拟在分子图上的消息传递。
  • 使用 Bahdanau 风格的注意力从池化的 RNN 输出中形成固定长度的潜在表征。
  • 使用束搜索解码器将同一分子解码为一组不重叠的 SMILES 字符串,以鼓励与分子空间的近似双射。
  • 在潜在表征上联合训练性质回归器,并在重新参数化的潜在空间中通过梯度方法优化性质,该空间受先验高概率区域的约束。
  • 如有需要,可在解码时可选地对有效 SMILES 字符串强制执行文法约束。

实验结果

研究问题

  • RQ1在每个分子由多条 SMILES 字符串构建的潜在空间,是否能够在 SMILES 非唯一性的情况下仍然产生鲁棒的、以分子为中心的表征?
  • RQ2解码为不重叠的 SMILES 字符串是否强制获得面向分子的潜在表征,从而在性质预测和优化方面具有良好泛化?
  • RQ3在先验受约束区域内进行潜在空间的基于梯度的优化时,与先验未受约束的方法相比,分子性质的表现如何?
  • RQ4使用 All SMILES 潜在表征相对于先前的最先进方法,在半监督和全监督的性质预测以及毒性辅助方面有哪些提升?

主要发现

  • 重构精度:在保持的 ZINC250k 测试集上,使用均值潜在后验和束搜索解码可准确重构的比例为 87.4% ± 1%。
  • 先验采样的有效性:从先验抽样的 98.5% ± 0.1% 的样本解码为有效的 SMILES 字符串。
  • 新颖性与实用性:从 50,000 次先验采样解码的分子均为唯一且相对于训练数据有 99.958% 的新颖性;平均合成可得性分数为 2.97 ± 0.01。
  • 在 ZINC250k 上的全监督回归性能显示,logP 的 MAE 为 0.005 ± 0.0006,QED 的 MAE 为 0.0052 ± 0.0001,优于 ECFP、CVAE 和图卷积基线。
  • Tox21 毒性预测:All SMILES 在 Tox21 数据集上达到 AUC-ROC 0.871,超过若干先前模型。
  • 分子优化:基于梯度的潜在空间优化得到的惩罚性 logP 和 QED 值,与最近的最先进方法相当或更优,并对 JT-VAE、GCPN 和 MolDQN 的结果进行了明确比较。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。