[论文解读] GraphMAE: Self-Supervised Masked Graph Autoencoders
GraphMAE 提出了一种用于图的掩蔽特征重建的方法,使用掩蔽自编码器、带有 GNN 解码器的再掩蔽解码策略,以及缩放余弦误差,在多种图任务中相对于对比学习和生成基线取得了强劲的结果。
Self-supervised learning (SSL) has been extensively explored in recent years. Particularly, generative SSL has seen emerging success in natural language processing and other AI fields, such as the wide adoption of BERT and GPT. Despite this, contrastive learning-which heavily relies on structural data augmentation and complicated training strategies-has been the dominant approach in graph SSL, while the progress of generative SSL on graphs, especially graph autoencoders (GAEs), has thus far not reached the potential as promised in other fields. In this paper, we identify and examine the issues that negatively impact the development of GAEs, including their reconstruction objective, training robustness, and error metric. We present a masked graph autoencoder GraphMAE that mitigates these issues for generative self-supervised graph pretraining. Instead of reconstructing graph structures, we propose to focus on feature reconstruction with both a masking strategy and scaled cosine error that benefit the robust training of GraphMAE. We conduct extensive experiments on 21 public datasets for three different graph learning tasks. The results manifest that GraphMAE-a simple graph autoencoder with careful designs-can consistently generate outperformance over both contrastive and generative state-of-the-art baselines. This study provides an understanding of graph autoencoders and demonstrates the potential of generative self-supervised pre-training on graphs.
研究动机与目标
- 识别现有自监督图自编码器(GAEs)在重构目标、训练鲁棒性和误差度量方面的不足。
- 提出 GraphMAE,通过聚焦特征重构与掩蔽来改进 GAE 设计。
- 引入掩蔽特征重构、再掩蔽解码以及缩放余弦误差,以实现对图的鲁棒预训练。
- 证明 GraphMAE 在节点分类、图分类和迁移学习等方面超越了最先进的对比学习和生成式 SSL 基线。
提出的方法
- 将输入节点特征用 [MASK] 令牌进行掩蔽,并训练使用 GNN 编码器来重构掩蔽的特征。
- 使用更具表达能力的 GNN 解码器(如 GAT、GIN)并进行再掩蔽解码,在解码前对掩蔽的节点表示进行再次掩蔽。
- 采用特征重构(而非结构重构)作为训练目标,以支持分类任务。
- 用缩放余弦误差(SCE)替代均方误差(MSE),以减轻对特征范数的敏感性并强调更难的样本(γ ≥ 1)。
- 掩蔽比率保持相对较高(例如 50%)以促进有意义的自监督,并使用“随机替换”来减少训练与推断之间的差异。
- 编码器在具有部分观测特征的全图上进行处理;解码器为掩蔽节点重构原始特征;下游推断使用不带掩蔽的编码器。
实验结果
研究问题
- RQ1在自监督 GAE 设置中,哪种重构目标最能支持图分类及相关任务?
- RQ2如何设计掩蔽、解码架构和损失设计,以提高 GAEs 的鲁棒性和性能?
- RQ3相比于 MLP 解码器,采用基于 GNN 的解码器并进行再掩蔽是否能提升特征恢复和表示?
- RQ4哪种误差函数最能稳定并改善图上的特征重构学习?
- RQ5自监督的 GraphMAE 预训练是否可以泛化到节点分类、图分类和迁移学习场景?
主要发现
- GraphMAE 在节点分类基准上达到最佳或具竞争力的结果,相对于最先进的自监督方法,显著超越现有的生成式 GAEs。
- GraphMAE 在图分类基准上获得具竞争力的性能,并展现出对下游任务的强传递性。
- 在 21 个公开数据集和三种图任务中,GraphMAE 始终能达到或超过对比 SSL 基线,在某些情况下甚至接近有监督的表现。
- 用掩蔽特征重构替代结构重构,结合缩放余弦误差和再掩蔽解码,带来鲁棒训练和改进的表示。
- 如将 GAT 用于节点分类、GIN 用于图分类的编码器选择带来经验上的收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。