QUICK REVIEW

[论文解读] RWR-GAE: Random Walk Regularization for Graph Auto Encoders

Vaibhav, Po-Yao Huang|arXiv (Cornell University)|Aug 12, 2019

Advanced Graph Neural Networks参考文献 19被引用 26

一句话总结

本文提出RWR-GAE，一种基于随机游走正则化的图自编码器，通过增强局部拓扑感知能力和更优的潜在分布控制来提升节点嵌入质量。通过引入基于随机游走的跳字模型风格目标，该方法在Cora、Citeseer和PubMed数据集上的无监督节点聚类任务中达到最先进性能（最高提升7.5%），并在链接预测任务中取得具有竞争力的结果。

ABSTRACT

Node embeddings have become an ubiquitous technique for representing graph data in a low dimensional space. Graph autoencoders, as one of the widely adapted deep models, have been proposed to learn graph embeddings in an unsupervised way by minimizing the reconstruction error for the graph data. However, its reconstruction loss ignores the distribution of the latent representation, and thus leading to inferior embeddings. To mitigate this problem, we propose a random walk based method to regularize the representations learnt by the encoder. We show that the proposed novel enhancement beats the existing state-of-the-art models by a large margin (upto 7.5\%) for node clustering task, and achieves state-of-the-art accuracy on the link prediction task for three standard datasets, cora, citeseer and pubmed. Code available at https://github.com/MysteryVaibhav/DW-GAE.

研究动机与目标

解决标准图自编码器忽略潜在表示分布且无法捕捉局部拓扑结构的局限性。
通过强制实现更均匀且信息量更高的簇内嵌入，提升无监督节点聚类性能。
通过引入基于随机游走的上下文预测，提供强于仅重建损失的训练信号。
开发一种自然编码图结构的正则化方法，无需依赖高斯先验。
在标准基准数据集上对聚类和链接预测任务进行方法评估。

提出的方法

提出一种基于随机游走的正则化目标，促使每个节点嵌入能够预测其在游走路径中的邻近节点。
将标准图自编码器的重建损失与随机游走序列上的跳字模型风格目标相结合。
采用窗口化上下文预测任务，即基于节点嵌入及其邻居的嵌入来预测游走序列中的每个节点。
在训练过程中使用小批量随机游走进行随机优化，以实现大规模图的可扩展性。
利用跳字目标对潜在空间进行正则化，使嵌入更能反映局部网络结构。
采用联合训练目标，同时最小化重建误差和上下文预测损失。

实验结果

研究问题

RQ1基于随机游走的正则化是否能提升图自编码器学习节点嵌入的质量？
RQ2通过随机游走强制执行上下文预测是否能带来更优的簇内分布并减少簇内距离？
RQ3RWR-GAE在标准引文网络上的无监督节点聚类任务中，相较于最先进方法表现如何？
RQ4所提方法是否能在提升聚类性能的同时，实现具有竞争力的链接预测性能？
RQ5游走长度和窗口大小等超参数对模型性能有何影响？

主要发现

在Citeseer数据集上，RWR-GAE相较于对抗正则化自编码器，聚类准确率提升7.5%。
在PubMed数据集上，RWR-GAE相较于标准GAE，调整兰德指数（ARI）提升18.3%，标准化互信息（NMI）提升7.5%。
在Cora数据集上，与变分图自编码器相比，该方法使聚类准确率提升12.4%。
模型将簇内距离从GAE的0.99降低至0.64，表明簇内嵌入更均匀且分布更均衡。
RWR-GAE收敛更快，约在100个周期内达到峰值性能，而标准GAE需约200个周期。
尽管由于随机游走采样导致得分方差略高，但模型在所有数据集上均保持强大且一致的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。