QUICK REVIEW

[论文解读] Learn molecular representations from large-scale unlabeled molecules for drug discovery

Pengyong Li, Jun Wang|arXiv (Cornell University)|Dec 21, 2020

Computational Drug Discovery Methods参考文献 60被引用 24

一句话总结

该论文提出MPG，一种基于图神经网络（MolGNet）的自监督分子预训练框架，从1100万条未标注分子中学习富有表现力的分子表征。通过结合节点级与图级对比学习，并引入一个虚拟聚合节点以获取全局表征，MPG在仅增加一层微调后，即在13项药物发现基准任务上达到最先进性能。

ABSTRACT

How to produce expressive molecular representations is a fundamental challenge in AI-driven drug discovery. Graph neural network (GNN) has emerged as a powerful technique for modeling molecular data. However, previous supervised approaches usually suffer from the scarcity of labeled data and have poor generalization capability. Here, we proposed a novel Molecular Pre-training Graph-based deep learning framework, named MPG, that leans molecular representations from large-scale unlabeled molecules. In MPG, we proposed a powerful MolGNet model and an effective self-supervised strategy for pre-training the model at both the node and graph-level. After pre-training on 11 million unlabeled molecules, we revealed that MolGNet can capture valuable chemistry insights to produce interpretable representation. The pre-trained MolGNet can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of drug discovery tasks, including molecular properties prediction, drug-drug interaction, and drug-target interaction, involving 13 benchmark datasets. Our work demonstrates that MPG is promising to become a novel approach in the drug discovery pipeline.

研究动机与目标

通过在大规模未标注分子上进行预训练，解决人工智能驱动药物发现中标签数据稀缺的问题。
克服因分子性质预测、药物-药物相互作用及药物-靶点相互作用任务中标签数据量小，导致监督型图神经网络泛化能力受限的问题。
开发一种统一的分子表征框架，同时捕捉局部原子特征与全局分子图特征。
实现从预训练模型到下游药物发现任务的迁移学习，且仅需极少微调。

提出的方法

提出MolGNet，一种专为分子表征学习设计的图神经网络架构，通过原子与键特征的消息传递机制进行学习。
提出一种新颖的自监督预训练策略，基于子图预测（PSD），用于判断两个子图是否同源。
通过图分解将分子拆分为两个子图，利用随机负采样方法，将其中一个子图替换为来自其他分子的子图。
引入一个与所有节点相连的虚拟聚合节点，以聚合信息并从两个断开的子图中生成全局图级表征。
通过组合学习到的特征嵌入与片段嵌入，构建输入表征，以区分来自不同分子的子图。
通过在PSD任务上使用交叉熵损失进行优化，学习判别性表征，且无需依赖标签数据。

实验结果

研究问题

RQ1在大规模未标注分子上进行自监督预训练，能否提升下游药物发现任务中的分子表征学习性能？
RQ2基于图神经网络的模型能否在不依赖标签数据的情况下，学习到可解释且泛化能力强的分子表征？
RQ3所提出的子图预测（PSD）策略在捕捉局部与全局分子特征方面的有效性如何？
RQ4在1100万分子上进行预训练，能在多大程度上提升在多样化药物发现基准上的性能？

主要发现

预训练后的MolGNet模型在13个基准数据集上，涵盖分子性质预测、药物-药物相互作用及药物-靶点相互作用任务，均达到最先进性能。
在1100万条未标注分子上预训练后，MolGNet学习到的表征具有化学洞察力，兼具表达力与可解释性。
仅通过增加一层输出头进行微调，其性能即优于监督型基线模型，即使在标签数据有限的情况下亦表现卓越。
虚拟聚合节点的使用显著提升了全局图级表征学习效果，通过聚合子图信息实现更优表征。
PSD自监督任务能有效捕捉结构同源性，并在多样化分子拓扑结构中实现稳健泛化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。