Skip to main content
QUICK REVIEW

[论文解读] RetGK: Graph Kernels based on Return Probabilities of Random Walks

Zhen Zhang, Mianzhi Wang|arXiv (Cornell University)|Sep 7, 2018
Advanced Graph Neural Networks被引用 38
一句话总结

该论文提出了一种基于随机游走返回概率的新型图核框架RetGK,能够有效捕捉节点的结构角色,并整合离散与连续的节点属性。在图分类任务中,RetGK实现了显著的准确率和计算效率提升,尤其在大规模图上表现优异。

ABSTRACT

Graph-structured data arise in wide applications, such as computer vision, bioinformatics, and social networks. Quantifying similarities among graphs is a fundamental problem. In this paper, we develop a framework for computing graph kernels, based on return probabilities of random walks. The advantages of our proposed kernels are that they can effectively exploit various node attributes, while being scalable to large datasets. We conduct extensive graph classification experiments to evaluate our graph kernels. The experimental results show that our graph kernels significantly outperform existing state-of-the-art approaches in both accuracy and computational efficiency.

研究动机与目标

  • 解决设计同构不变图核的挑战,以有效捕捉拓扑结构和节点属性。
  • 通过避免将图分解为小子图,克服基于子结构的图核中的对角优势问题。
  • 通过利用近似特征映射和张量表示,实现在大规模图上的高效计算。
  • 通过基于返回概率特征,统一处理带属性和不带属性的图,构建单一核框架。
  • 在包含多种属性类型的多样化基准数据集上,实现图分类任务中的高准确率与可扩展性。

提出的方法

  • 提出返回概率特征(RPF)作为基于随机游走S步后返回起始节点概率的节点级结构描述符。
  • 证明RPF具有同构不变性并编码丰富的拓扑信息,支持图在希尔伯特空间中的嵌入。
  • 通过使用正定核比较两幅图中节点RPF分布,构建RetGK_I核。
  • 应用近似显式特征映射,将每幅图表示为多维张量,实现高效计算。
  • 推导出RetGK_II作为计算高效的变体,利用蒙特卡洛采样近似RPF,降低计算成本。
  • 使用基于张量的运算高效计算核函数,实现对包含数百万个节点的大规模图的可扩展性。

实验结果

研究问题

  • RQ1随机游走的返回概率能否作为图节点的有效且同构不变的结构描述符?
  • RQ2如何利用返回概率特征将图嵌入希尔伯特空间以支持基于核的学习?
  • RQ3所提出的核框架能否以统一方式处理离散和连续的节点属性?
  • RQ4在准确率和计算效率方面,RetGK与当前最先进图核相比表现如何?
  • RQ5该方法对超参数(如游走长度和特征映射维度)的敏感性如何?

主要发现

  • RetGK_I与RetGK_II在21个基准数据集上均达到最先进分类准确率,其中RetGK_II在REDDIT-BINARY和PROTEINS等数据集上全面超越所有基线方法。
  • 在REDDIT-BINARY数据集上,RetGK_II达到91.6%的准确率,显著优于Weisfeiler-Lehman核(68.2%)和PSCN核(86.3%)。
  • RetGK_II(MC)在REDDIT-BINARY上耗时6分钟9秒,比Weisfeiler-Lehman子树核快近一个数量级。
  • 该方法在广泛超参数范围内表现稳健,S、D₀和D_c的不同取值下均保持一致的准确率,如敏感性分析所示。
  • 在大型PROTEINS数据集上,RetGK_II以仅49.9秒的总训练时间达到75.2%的准确率,优于DGK(75.7%)和PSCN(75.0%),且耗时显著更少。
  • 对于同时包含离散与连续属性的数据集(如BZR和COX2),RetGK_II分别达到87.1%和81.4%的准确率,优于GIK和CSM方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。