[论文解读] GROVER: Self-supervised Message Passing Transformer on Large-scale Molecular Data.
GROVER 是一种用于分子表征学习的自监督消息传递 Transformer 模型,通过在 1000 万条未标注分子上进行节点、边和图级别的预训练任务,学习到丰富的结构与语义特征。在微调后,其在 11 项下游分子性质预测基准测试中平均性能提升超过 6%,达到当前最先进水平。
How to obtain informative representations of molecules is a crucial prerequisite in AI-driven drug design and discovery. Recent researches abstract molecules as graphs and employ Graph Neural Networks (GNNs) for task-specific and data-driven molecular representation learning. Nevertheless, two dark clouds impede the usage of GNNs in real scenarios: (1) insufficient labeled molecules for supervised training; (2) poor generalization capabilities to new-synthesized molecules. To address them both, we propose a novel molecular representation framework, GROVER, which stands for Graph Representation frOm self-superVised mEssage passing tRansformer. With carefully designed self-supervised tasks in node, edge and graph-level, GROVER can learn rich structural and semantic information of molecules from enormous unlabelled molecular data. Rather, to encode such complex information, GROVER integrates Message Passing Networks with the Transformer-style architecture to deliver a class of more expressive encoders of molecules. The flexibility of GROVER allows it to be trained efficiently on large-scale molecular dataset without requiring any supervision, thus being immunized to the two issues mentioned above. We pre-train GROVER with 100 million parameters on 10 million unlabelled molecules---the biggest GNN and the largest training dataset that we have ever met. We then leverage the pre-trained GROVER to downstream molecular property prediction tasks followed by task-specific fine-tuning, where we observe a huge improvement (more than 6% on average) over current state-of-the-art methods on 11 challenging benchmarks. The insights we gained are that well-designed self-supervision losses and largely-expressive pre-trained models enjoy the significant potential on performance boosting.
研究动机与目标
- 为解决监督 GNN 训练中分子标签数据稀缺的问题,以提升分子性质预测性能。
- 提升对新合成分子的泛化能力,因为当前 GNN 模型由于归纳偏置有限而难以应对。
- 开发一种无需人工标注的预训练框架,以在大规模未标注数据上学习丰富的分子表征。
- 将消息传递机制与 Transformer 架构结合,构建更具表达能力的分子编码器。
- 证明精心设计的自监督机制与高表达能力模型可显著提升分子表征学习的性能。
提出的方法
- GROVER 采用混合架构,结合消息传递网络与 Transformer 式注意力机制,以捕捉分子图中的长距离依赖关系与复杂结构模式。
- 引入三项自监督预训练任务:掩码节点预测、掩码边预测与图级重建,实现多层次表征学习。
- 模型在 1000 万条未标注分子上进行预训练,采用大规模自监督目标,无需人工标注即可学习结构与语义特征。
- 将预训练的 GROVER 编码器在下游分子性质预测任务上进行微调,仅需少量标注数据,充分利用迁移学习优势。
- 该架构支持端到端训练,注意力机制可同时关注节点与边特征,其表达能力超越标准 GNN。
- 该框架具备可扩展性与高效性,支持在包含 1000 万分子的数据集上进行预训练——目前规模最大的 GNN 预训练设置之一。
实验结果
研究问题
- RQ1在大规模未标注分子数据上进行自监督预训练,是否能提升对未见分子的泛化能力?
- RQ2将消息传递与 Transformer 注意力机制结合,相比标准 GNN,能否显著提升分子表征学习能力?
- RQ3多层次自监督(节点、边、图)对下游分子性质预测性能有何影响?
- RQ4大规模预训练的 GROVER 模型在极少微调下,能否显著超越现有最先进方法?
- RQ5表达能力强的架构与精心设计的预训练目标,是否能在多样化的分子预测基准上持续带来性能提升?
主要发现
- 与最先进方法相比,GROVER 在 11 项具有挑战性的分子性质预测基准测试中平均性能提升超过 6%。
- 由于在大规模未标注数据上进行了自监督预训练,该模型对新合成分子展现出强大的泛化能力。
- 将消息传递与 Transformer 注意力机制结合,使分子表征比标准 GNN 更具表达力。
- 多层次自监督(节点、边、图)显著促进了对丰富结构与语义特征的学习。
- 在 1000 万条未标注分子上进行预训练,可实现高效的迁移学习,仅需极少的下游微调。
- 结果证实,表达能力强的架构与精心设计的自监督损失函数是提升分子表征学习性能的关键因素。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。