Skip to main content
QUICK REVIEW

[论文解读] Learn molecular representations from large-scale unlabeled molecules for drug discovery

Pengyong Li, Jun Wang|arXiv (Cornell University)|Dec 21, 2020
Computational Drug Discovery Methods参考文献 60被引用 24
一句话总结

该论文提出MPG,一种基于图神经网络(MolGNet)的自监督分子预训练框架,从1100万条未标注分子中学习富有表现力的分子表征。通过结合节点级与图级对比学习,并引入一个虚拟聚合节点以获取全局表征,MPG在仅增加一层微调后,即在13项药物发现基准任务上达到最先进性能。

ABSTRACT

How to produce expressive molecular representations is a fundamental challenge in AI-driven drug discovery. Graph neural network (GNN) has emerged as a powerful technique for modeling molecular data. However, previous supervised approaches usually suffer from the scarcity of labeled data and have poor generalization capability. Here, we proposed a novel Molecular Pre-training Graph-based deep learning framework, named MPG, that leans molecular representations from large-scale unlabeled molecules. In MPG, we proposed a powerful MolGNet model and an effective self-supervised strategy for pre-training the model at both the node and graph-level. After pre-training on 11 million unlabeled molecules, we revealed that MolGNet can capture valuable chemistry insights to produce interpretable representation. The pre-trained MolGNet can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of drug discovery tasks, including molecular properties prediction, drug-drug interaction, and drug-target interaction, involving 13 benchmark datasets. Our work demonstrates that MPG is promising to become a novel approach in the drug discovery pipeline.

研究动机与目标

  • 通过在大规模未标注分子上进行预训练,解决人工智能驱动药物发现中标签数据稀缺的问题。
  • 克服因分子性质预测、药物-药物相互作用及药物-靶点相互作用任务中标签数据量小,导致监督型图神经网络泛化能力受限的问题。
  • 开发一种统一的分子表征框架,同时捕捉局部原子特征与全局分子图特征。
  • 实现从预训练模型到下游药物发现任务的迁移学习,且仅需极少微调。

提出的方法

  • 提出MolGNet,一种专为分子表征学习设计的图神经网络架构,通过原子与键特征的消息传递机制进行学习。
  • 提出一种新颖的自监督预训练策略,基于子图预测(PSD),用于判断两个子图是否同源。
  • 通过图分解将分子拆分为两个子图,利用随机负采样方法,将其中一个子图替换为来自其他分子的子图。
  • 引入一个与所有节点相连的虚拟聚合节点,以聚合信息并从两个断开的子图中生成全局图级表征。
  • 通过组合学习到的特征嵌入与片段嵌入,构建输入表征,以区分来自不同分子的子图。
  • 通过在PSD任务上使用交叉熵损失进行优化,学习判别性表征,且无需依赖标签数据。

实验结果

研究问题

  • RQ1在大规模未标注分子上进行自监督预训练,能否提升下游药物发现任务中的分子表征学习性能?
  • RQ2基于图神经网络的模型能否在不依赖标签数据的情况下,学习到可解释且泛化能力强的分子表征?
  • RQ3所提出的子图预测(PSD)策略在捕捉局部与全局分子特征方面的有效性如何?
  • RQ4在1100万分子上进行预训练,能在多大程度上提升在多样化药物发现基准上的性能?

主要发现

  • 预训练后的MolGNet模型在13个基准数据集上,涵盖分子性质预测、药物-药物相互作用及药物-靶点相互作用任务,均达到最先进性能。
  • 在1100万条未标注分子上预训练后,MolGNet学习到的表征具有化学洞察力,兼具表达力与可解释性。
  • 仅通过增加一层输出头进行微调,其性能即优于监督型基线模型,即使在标签数据有限的情况下亦表现卓越。
  • 虚拟聚合节点的使用显著提升了全局图级表征学习效果,通过聚合子图信息实现更优表征。
  • PSD自监督任务能有效捕捉结构同源性,并在多样化分子拓扑结构中实现稳健泛化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。