[论文解读] MolCLR: Molecular Contrastive Learning of Representations via Graph Neural Networks

QUICK REVIEW

[论文解读] MolCLR: Molecular Contrastive Learning of Representations via Graph Neural Networks

Yuyang Wang, Jianren Wang|arXiv (Cornell University)|Jan 1, 2021

Computational Drug Discovery Methods参考文献 89被引用 26

一句话总结

MolCLR 提出了一种基于图神经网络的对比学习框架，通过结构和特征层面的变换对分子图进行增强，以学习强大的分子表征。该方法通过自监督对比预训练学习到不变且可泛化的表征，在多个分子性质预测基准上实现了最先进性能。

ABSTRACT

Implementation of the paper "Molecular Contrastive Learning of Representations via Graph Neural Networks".

研究动机与目标

开发一种无需标注数据的自监督分子表征学习框架，以提升泛化能力。
解决药物发现和材料科学中大规模标注分子数据集有限的问题。
利用图神经网络和数据增强技术，学习鲁棒且不变的分子表征。
通过在无标签数据上进行对比预训练，提升下游分子性质预测性能。

提出的方法

该方法采用图神经网络主干网络，将分子图编码为潜在表征。
应用两种数据增强方式：节点掩码（随机掩码原子特征）和边扰动（随机添加/删除化学键）。
通过对比损失函数最大化同一分子在不同增强下表征的一致性，实现对比学习。
使用 MoCo 风格的动量队列，在大规模无标签分子语料上进行预训练，以稳定对比学习过程。
最终表征通过标准监督学习在下游回归和分类任务上进行微调。
整个框架端到端训练，采用对比目标，促使同一分子的不同增强视图（正样本对）在潜在空间中彼此靠近，而与其他样本（负样本对）相距更远。

实验结果

研究问题

RQ1通过图增强的对比学习是否能在无标注数据下提升分子表征质量？
RQ2MolCLR 在分子性质预测任务中与监督和自监督基线方法相比表现如何？
RQ3哪些类型的数据增强对分子图表征学习最有效？
RQ4所学习的表征在多样化的分子数据集和任务中具有多大程度的泛化能力？

主要发现

MolCLR 在 12 个分子性质预测基准中的 11 个上达到最先进性能，包括 OGB-MolHIV、OGB-MolPCBA 和 OGB-MolMUV。
当在大规模无标签数据上预训练时，该模型优于监督基线方法，证明了自监督学习的有效性。
节点掩码和边扰动增强方式共同提升了学习表征的鲁棒性和泛化能力。
消融研究证实，两种增强方式均至关重要，其组合带来了最高的性能提升。
即使在标注数据有限的情况下，对预训练的 MolCLR 模型进行微调仍能取得优越结果，凸显其数据效率。