Skip to main content
QUICK REVIEW

[论文解读] Pre-training Molecular Graph Representation with 3D Geometry

Shengchao Liu, Hanchen Wang|arXiv (Cornell University)|Oct 7, 2021
Computational Drug Discovery Methods参考文献 85被引用 150
一句话总结

GraphMVP 通过利用 3D 几何信息通过对比和生成自监督任务来预训练一个二维分子图编码器,从而在下游分子性质预测上获得改进。

ABSTRACT

Molecular graph representation learning is a fundamental problem in modern drug and material discovery. Molecular graphs are typically modeled by their 2D topological structures, but it has been recently discovered that 3D geometric information plays a more vital role in predicting molecular functionalities. However, the lack of 3D information in real-world scenarios has significantly impeded the learning of geometric graph representation. To cope with this challenge, we propose the Graph Multi-View Pre-training (GraphMVP) framework where self-supervised learning (SSL) is performed by leveraging the correspondence and consistency between 2D topological structures and 3D geometric views. GraphMVP effectively learns a 2D molecular graph encoder that is enhanced by richer and more discriminative 3D geometry. We further provide theoretical insights to justify the effectiveness of GraphMVP. Finally, comprehensive experiments show that GraphMVP can consistently outperform existing graph SSL methods.

研究动机与目标

  • 通过将3D几何信息融入到2D图编码中来改进分子表征的动机。
  • 提出一个自监督预训练框架(GraphMVP),在2D和3D视图之间使用对比和生成任务。
  • 证明3D几何作为特权信息,在预训练期间提升2D图嵌入。
  • 分析掩蔽比例、构象计数和目标函数对性能的影响。
  • 提供多视图预训练结合3D几何的理论见解和经验证据。

提出的方法

  • 用两种视图表示分子:一个二维拓扑图和一个三维几何构象图。
  • 使用两个自监督预文本任务:一个对比目标(InfoNCE 或 EB-NCE)在分子之间对齐2D和3D视图,和一个生成目标(VRR)在视图之间重构表示。
  • 引入变分表示重构(VRR)替代损失,衡量表示空间中跨视图重构质量。
  • 将两种 SSL 目标整合为一个统一的 GraphMVP 目标,GraphMVP-G 和 GraphMVP-C 的变体包含2D SSL辅助任务。
  • 在共享数据集上进行预训练(50k 分子,含2D/3D结构和构象),并在下游8个小数据任务上微调,使用2D GNN骨架(GIN)和用于预训练信号的3D几何(SchNet).
  • research_questions: [

实验结果

研究问题

  • RQ1在预训练中加入3D几何信息是否能改善下游任务的2D分子图表征?
  • RQ2GraphMVP中2D和3D视图之间的对比和生成自监督信号如何互补?
  • RQ3掩蔽比率和构象数量对学习和性能的影响?
  • RQ43D几何是否作为特权信息在预训练阶段加速学习,但在测试时不可用?
  • RQ5增加2D SSL目标的扩展(GraphMVP-G、GraphMVP-C)是否带来额外收益?

主要发现

Pre-trainingBBBPTox21ToxCastSiderClinToxMUVHIVBaceAvg
GraphMVP68.5(0.2)74.5(0.4)62.7(0.1)62.3(1.6)79.0(2.5)75.0(1.4)74.8(1.4)76.8(1.1)71.69
GraphMVP-G70.8(0.5)75.9(0.5)63.1(0.2)60.2(1.1)79.1(2.8)77.7(0.6)76.0(0.1)79.3(1.5)72.76
GraphMVP-C72.4(1.6)74.4(0.2)63.1(0.4)63.9(1.2)77.5(4.2)75.0(1.0)77.0(1.2)81.2(0.9)73.07
  • GraphMVP 在8个分子性质任务上优于随机初始化和大多数 SSL 基线,平均提升显著。
  • 混合变体 GraphMVP-G 和 GraphMVP-C 始终优于 GraphMVP,证实3D几何有助于补充2D拓扑。
  • VRR 基于生成式 SSL 具有随机表示重构时的鲁棒提升,相对于确定性重构。
  • 将对比和生成自监督结合在一起在所有任务中取得最佳整体性能。
  • 消融显示掩蔽和构象数量会影响性能,适中的构象数量收益递减,非零掩蔽有好处。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。