QUICK REVIEW

[论文解读] Self-supervised Graph-level Representation Learning with Local and Global Structure

Minghao Xu, Hang Wang|arXiv (Cornell University)|Jun 8, 2021

Computational Drug Discovery Methods被引用 28

一句话总结

GraphLoG 提出一种自监督框架，在图表示中联合建模局部实例相似性与全局语义结构，使用在线 EM 算法和分层原型，在化学和生物基准上取得强劲结果。

ABSTRACT

This paper studies unsupervised/self-supervised whole-graph representation learning, which is critical in many tasks such as molecule properties prediction in drug and material discovery. Existing methods mainly focus on preserving the local similarity structure between different graph instances but fail to discover the global semantic structure of the entire data set. In this paper, we propose a unified framework called Local-instance and Global-semantic Learning (GraphLoG) for self-supervised whole-graph representation learning. Specifically, besides preserving the local similarities, GraphLoG introduces the hierarchical prototypes to capture the global semantic clusters. An efficient online expectation-maximization (EM) algorithm is further developed for learning the model. We evaluate GraphLoG by pre-training it on massive unlabeled graphs followed by fine-tuning on downstream tasks. Extensive experiments on both chemical and biological benchmark data sets demonstrate the effectiveness of the proposed approach.

研究动机与目标

在标签数据稀缺的无监督设置中，激励学习整图表征。
通过对相关图与子图的嵌入对齐，保持局部实例结构。
通过分层原型捕获全局语义结构，形成有意义的语义簇。
开发在线 EM 算法以联合学习 GNN 参数和分层原型。
通过在大量未标记图上的预训练，再进行下游微调来证明有效性。

提出的方法

将局部实例结构定义为在潜在空间中保持图/子图之间的成对相似性，并对相关对最大化相似性，同时对比负样本。
通过掩蔽属性来创建相关的图/子图对 G 和 G'，并通过多层 GNN 计算嵌入。
用分层原型以树状结构组织来建模全局语义结构，并学习原型分配 Z 来表示潜在簇。
使用在线 EM 程序轮流对潜在原型分配进行采样（E 步）并最大化期望的完整数据似然（M 步），并使用小批量目标函数。
采用能量基形式 p(G, z_G|θ, C) ∝ exp(f(h_G, z_G))，通过对比噪声估计对正样本与负样本进行对比优化。
先以局部目标对 GNN 进行预训练，用 K-means 初始化原型，然后在小批量在线 EM 过程中同时更新 θ 与 C，以利于下游任务。

实验结果

研究问题

RQ1自监督学习如何同时捕获图之间的局部相似性与一组图的全局语义结构？
RQ2分层原型是否能在大规模未标记图集合中有效发现并细化全局语义簇？
RQ3通过在线 EM 框架整合局部与全局目标是否能提升下游图分类/回归任务？
RQ4GraphLoG 是否具备对大规模未标记图数据的可扩展性，并可迁移到化学与生物领域？

主要发现

方法	BBBP	Tox21	ToxCast	SIDER	ClinTox	MUV	HIV	BACE	平均
Random	65.8±4.5	74.0±0.8	63.4±0.6	57.3±1.6	58.0±4.4	71.8±2.5	75.3±1.9	70.1±5.4	67.0
EdgePred (2016)	67.3±2.4	76.0±0.6	64.1±0.6	60.4±0.7	64.1±3.7	74.1±2.1	76.3±1.0	79.9±0.9	70.3
InfoGraph (2019)	68.2±0.7	75.5±0.6	63.1±0.3	59.4±1.0	70.5±1.8	75.6±1.2	77.6±0.4	78.9±1.1	71.1
AttrMasking (2019)	64.3±2.8	76.7±0.4	64.2±0.5	61.0±0.7	71.8±4.1	74.7±1.4	77.2±1.1	79.3±1.6	71.1
ContextPred (2019)	68.0±2.0	75.7±0.7	63.9±0.6	60.9±0.6	65.9±3.8	75.8±1.7	77.3±1.0	79.6±1.2	70.9
GraphPartition (2020b)	70.3±0.7	75.2±0.4	63.2±0.3	61.0±0.8	64.2±0.5	75.4±1.7	77.1±0.7	79.6±1.8	70.8
GraphCL (2020a)	69.5±0.5	75.4±0.9	63.8±0.4	60.8±0.7	70.1±1.9	74.5±1.3	77.6±0.9	78.2±1.2	71.3
GraphLoG (ours)	72.5±0.8	75.7±0.5	63.5±0.7	61.2±1.1	76.7±3.3	76.0±1.1	77.8±0.8	83.5±1.2	73.4

GraphLoG 在化学分子性质基准上优于若干先前的自监督图方法，在单份报告中在八项任务上的平均 ROC-AUC 达到 73.4，且平均 ROC-AUC 提升 2.1%。
在化学任务中，GraphLoG 在八项下游任务上实现平均 ROC-AUC 为 73.4，且表 1 中 GraphLoG 相对于列出的基线具有最高的平均值。
在生物学任务中，GraphLoG 的 ROC-AUC 为 72.9，优于多项基线，如表 2 所示。
消融与可视化分析表明引入通过分层原型学习全局结构的好处。
在大量未标记图上使用 GraphLoG 进行预训练，并在下游任务上进行线性探针，在数据标注稀缺情景下提升了性能。
提出的在线 EM 策略联合更新 GNN 参数与分层原型，使全球语义结构的逐步发现与细化成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。