[论文解读] Multi-Task Graph Autoencoders
本文提出多任务图自编码器(MTGAE),一种对称的、端到端的深度自编码器架构,通过共享参数联合学习无监督链接预测和半监督节点分类的节点表征。该模型在五个基准数据集上达到最先进性能,在链接预测(AUC/AP)和节点分类准确率方面均优于强基线模型,尤其在低标签率设置下表现突出。
We examine two fundamental tasks associated with graph representation learning: link prediction and node classification. We present a new autoencoder architecture capable of learning a joint representation of local graph structure and available node features for the simultaneous multi-task learning of unsupervised link prediction and semi-supervised node classification. Our simple, yet effective and versatile model is efficiently trained end-to-end in a single stage, whereas previous related deep graph embedding methods require multiple training steps that are difficult to optimize. We provide an empirical evaluation of our model on five benchmark relational, graph-structured datasets and demonstrate significant improvement over three strong baselines for graph representation learning. Reference code and data are available at https://github.com/vuptran/graph-representation-learning
研究动机与目标
- 解决在标签稀疏且依赖关系违反独立同分布假设的关联图结构数据中学习有效节点表征的挑战。
- 开发一种统一的、端到端的深度学习框架,无需多阶段训练即可同时完成无监督链接预测与半监督节点分类。
- 通过在图自编码器中采用参数共享与对称编码器-解码器架构,提升模型泛化能力与表征容量。
- 在高边稀疏性与低标签可用性等实际条件下,评估模型的鲁棒性与性能表现。
提出的方法
- MTGAE采用四层自编码器结构,包含两层编码器与两层解码器,使用ReLU激活函数,并在编码器与解码器组件之间共享参数,以减少参数量并提升泛化能力。
- 通过非线性变换学习节点表征:$\mathbf{z}_i = \text{ReLU}(\mathbf{W} \cdot \text{ReLU}(\mathbf{V} \mathbf{a}_i + \mathbf{b}^{(1)}) + \mathbf{b}^{(2)})$,随后进行重构 $\hat{\mathbf{a}}_i = \mathbf{V}^T \cdot \text{ReLU}(\mathbf{W}^T \mathbf{z}_i + \mathbf{b}^{(3)}) + \mathbf{b}^{(4)}$。
- 采用Adam优化器进行端到端训练,固定初始学习率为0.001,小批量大小为64,训练100个周期,使用早停法与Dropout进行正则化。
- 将节点特征$\mathbf{X}$与邻接向量$\mathbf{a}_i$拼接形成$\mathbf{\bar{a}}_i$,以联合利用结构信息与特征信息。
- 在每个ReLU层后应用均值-方差归一化,以稳定训练过程,并提升在稀疏图上的性能表现。
- 在五个基准数据集上使用标准划分进行评估:链接预测任务中掩码10%的正样本边与相同数量的负样本边,节点分类任务中每类使用20个标注样本。
实验结果
研究问题
- RQ1单一的对称自编码器架构是否能在多任务学习设置下,联合且有效地完成链接预测与节点分类?
- RQ2在对称自编码器架构中,参数共享如何提升图结构数据上的表征学习与泛化能力?
- RQ3MTGAE模型是否在链接预测与节点分类任务上优于特定任务的基线模型,尤其在低标签率与高边稀疏性条件下?
- RQ4当边被随机移除时,MTGAE的重构性能与SDNE等基于自编码器的方法相比如何?
主要发现
- 在Cora与Citeseer数据集中,MTGAE在链接预测任务中的AUC/AP得分分别为0.946与0.949,优于最佳的VGAE基线模型。
- 在节点分类任务中,MTGAE在Cora上达到79.0%准确率,Citeseer上为71.8%,Pubmed上为80.4%,在低标签率数据集上超越GCN与Planetoid基线模型。
- 在网络重构任务中,MTGAE在Arxiv-GRQC与BlogCatalog数据集上均优于SDNE的precision@k表现,尤其在高达80%边被移除时优势更明显。
- 在Arxiv-GRQC数据集中,MTGAE在k≤10,000时优于SDNE;在BlogCatalog数据集中,即使在80%边被移除的情况下,其性能在k≤100,000时仍保持领先。
- 在ReLU层后使用均值-方差归一化可稳定激活值并补偿训练与测试分布之间的偏移,从而提升链接预测性能。
- 该模型对边稀疏性表现出强鲁棒性,即使在随机掩码80%边的情况下仍能保持高性能,表明其具备出色的泛化能力与表征容量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。