Skip to main content
QUICK REVIEW

[论文解读] Chemical-Reaction-Aware Molecule Representation Learning

Hongwei Wang, Weijiang Li|arXiv (Cornell University)|Sep 21, 2021
Computational Drug Discovery Methods参考文献 45被引用 33
一句话总结

MolR 通过在嵌入空间中强制化学反应等价性来学习分子嵌入,使用 GNN 编码器,在反应预测、分子性质预测和 GED 任务上取得最先进的结果。

ABSTRACT

Molecule representation learning (MRL) methods aim to embed molecules into a real vector space. However, existing SMILES-based (Simplified Molecular-Input Line-Entry System) or GNN-based (Graph Neural Networks) MRL methods either take SMILES strings as input that have difficulty in encoding molecule structure information, or over-emphasize the importance of GNN architectures but neglect their generalization ability. Here we propose using chemical reactions to assist learning molecule representation. The key idea of our approach is to preserve the equivalence of molecules with respect to chemical reactions in the embedding space, i.e., forcing the sum of reactant embeddings and the sum of product embeddings to be equal for each chemical equation. This constraint is proven effective to 1) keep the embedding space well-organized and 2) improve the generalization ability of molecule embeddings. Moreover, our model can use any GNN as the molecule encoder and is thus agnostic to GNN architectures. Experimental results demonstrate that our method achieves state-of-the-art performance in a variety of downstream tasks, e.g., 17.4% absolute Hit@1 gain in chemical reaction prediction, 2.3% absolute AUC gain in molecule property prediction, and 18.5% relative RMSE gain in graph-edit-distance prediction, respectively, over the best baseline method. The code is available at https://github.com/hwwang55/MolR.

研究动机与目标

  • 通过利用化学反应结构来推动在跨任务中泛化的稳健分子表示。
  • 提出一个反应等价性约束以组织嵌入空间并使反应模板得以出现。
  • 表明该方法对 GNN 编码器的选择不敏感,并能提升多个下游任务。
  • 展示在化学反应预测、分子性质预测和图编辑距离预测方面的强经验增益。
  • 可视化嵌入以展示反应感知性与结构编码。

提出的方法

  • 将分子表示为包含原子和键特征的图,并使用基于 GNN 的分子编码器对其进行编码。
  • 施加反应等价性约束:对于每个反应,反应物的嵌入和等于产物的嵌入和。
  • 使用小批量对比目标进行训练,将正确的反应物-产物和拉近,将错误配对推远(基于边际的损失)。
  • 证明在求和读出方式下,该约束会诱导出可推广到未见反应的反应模板(命题 2)。
  • 使用端到端训练并采用多种 GNN 主干(GCN、GAT、SAGE、TAG),并在反应预测、性质预测和 GED 任务上进行评估。

实验结果

研究问题

  • RQ1是否可以利用化学反应来正则化分子嵌入,从而提高跨任务的泛化能力?
  • RQ2反应约束是否在基于 GNN 的表征中诱导成分化的嵌入和可学习的反应模板?
  • RQ3与基线相比,MolR 在反应预测、分子性质预测和图编辑距离预测上的表现如何?
  • RQ4MolR 是否对 GNN 架构的选择不敏感,同时保持性能提升?

主要发现

  • MolR 在化学反应预测上相较最佳基线获得 17.4% 的绝对 Hit@1 增益。
  • MolR 在 BBBP 数据集的分子性质预测上实现 2.3% 的绝对 AUC 增益。
  • MolR 在图编辑距离预测上相较最佳基线实现 18.5% 的相对 RMSE 增益。
  • 采用不同 GNN 的 MolR 变体(GCN、GAT、SAGE、TAG)均超越基线,MolR-TAG 往往最强。
  • 即使仅使用 1% 的训练数据,MolR-TAG 也保持强劲表现,支持小样本泛化的说法。
  • 嵌入可视化显示出对反应的感知组织、与分子大小及环数的相关性,以及学习到的反应模板。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。