[论文解读] Learn molecular representations from large-scale unlabeled molecules for drug discovery
该论文提出MPG,一种基于图神经网络(MolGNet)的自监督分子预训练框架,从1100万条未标注分子中学习富有表现力的分子表征。通过结合节点级与图级对比学习,并引入一个虚拟聚合节点以获取全局表征,MPG在仅增加一层微调后,即在13项药物发现基准任务上达到最先进性能。
How to produce expressive molecular representations is a fundamental challenge in AI-driven drug discovery. Graph neural network (GNN) has emerged as a powerful technique for modeling molecular data. However, previous supervised approaches usually suffer from the scarcity of labeled data and have poor generalization capability. Here, we proposed a novel Molecular Pre-training Graph-based deep learning framework, named MPG, that leans molecular representations from large-scale unlabeled molecules. In MPG, we proposed a powerful MolGNet model and an effective self-supervised strategy for pre-training the model at both the node and graph-level. After pre-training on 11 million unlabeled molecules, we revealed that MolGNet can capture valuable chemistry insights to produce interpretable representation. The pre-trained MolGNet can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of drug discovery tasks, including molecular properties prediction, drug-drug interaction, and drug-target interaction, involving 13 benchmark datasets. Our work demonstrates that MPG is promising to become a novel approach in the drug discovery pipeline.
研究动机与目标
- 通过在大规模未标注分子上进行预训练,解决人工智能驱动药物发现中标签数据稀缺的问题。
- 克服因分子性质预测、药物-药物相互作用及药物-靶点相互作用任务中标签数据量小,导致监督型图神经网络泛化能力受限的问题。
- 开发一种统一的分子表征框架,同时捕捉局部原子特征与全局分子图特征。
- 实现从预训练模型到下游药物发现任务的迁移学习,且仅需极少微调。
提出的方法
- 提出MolGNet,一种专为分子表征学习设计的图神经网络架构,通过原子与键特征的消息传递机制进行学习。
- 提出一种新颖的自监督预训练策略,基于子图预测(PSD),用于判断两个子图是否同源。
- 通过图分解将分子拆分为两个子图,利用随机负采样方法,将其中一个子图替换为来自其他分子的子图。
- 引入一个与所有节点相连的虚拟聚合节点,以聚合信息并从两个断开的子图中生成全局图级表征。
- 通过组合学习到的特征嵌入与片段嵌入,构建输入表征,以区分来自不同分子的子图。
- 通过在PSD任务上使用交叉熵损失进行优化,学习判别性表征,且无需依赖标签数据。
实验结果
研究问题
- RQ1在大规模未标注分子上进行自监督预训练,能否提升下游药物发现任务中的分子表征学习性能?
- RQ2基于图神经网络的模型能否在不依赖标签数据的情况下,学习到可解释且泛化能力强的分子表征?
- RQ3所提出的子图预测(PSD)策略在捕捉局部与全局分子特征方面的有效性如何?
- RQ4在1100万分子上进行预训练,能在多大程度上提升在多样化药物发现基准上的性能?
主要发现
- 预训练后的MolGNet模型在13个基准数据集上,涵盖分子性质预测、药物-药物相互作用及药物-靶点相互作用任务,均达到最先进性能。
- 在1100万条未标注分子上预训练后,MolGNet学习到的表征具有化学洞察力,兼具表达力与可解释性。
- 仅通过增加一层输出头进行微调,其性能即优于监督型基线模型,即使在标签数据有限的情况下亦表现卓越。
- 虚拟聚合节点的使用显著提升了全局图级表征学习效果,通过聚合子图信息实现更优表征。
- PSD自监督任务能有效捕捉结构同源性,并在多样化分子拓扑结构中实现稳健泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。