Skip to main content
QUICK REVIEW

[论文解读] Improving Graph Neural Network Expressivity via Subgraph Isomorphism Counting

Giorgos Bouritsas, Fabrizio Frasca|arXiv (Cornell University)|Jun 16, 2020
Advanced Graph Neural Networks参考文献 117被引用 25
一句话总结

本文提出图子结构网络(GSN),一种消息传递图神经网络(GNN)架构,通过在聚合函数中引入子图同构计数来增强表达能力。通过子结构计数编码结构不变性,GSN 在表达能力上超越了 Weisfeiler-Leman(WL)测试,同时保持局部性和线性复杂度,在分子和社交网络基准测试中实现了最先进性能。

ABSTRACT

While Graph Neural Networks (GNNs) have achieved remarkable results in a variety of applications, recent studies exposed important shortcomings in their ability to capture the structure of the underlying graph. It has been shown that the expressive power of standard GNNs is bounded by the Weisfeiler-Leman (WL) graph isomorphism test, from which they inherit proven limitations such as the inability to detect and count graph substructures. On the other hand, there is significant empirical evidence, e.g. in network science and bioinformatics, that substructures are often intimately related to downstream tasks. To this end, we propose "Graph Substructure Networks" (GSN), a topologically-aware message passing scheme based on substructure encoding. We theoretically analyse the expressive power of our architecture, showing that it is strictly more expressive than the WL test, and provide sufficient conditions for universality. Importantly, we do not attempt to adhere to the WL hierarchy; this allows us to retain multiple attractive properties of standard GNNs such as locality and linear network complexity, while being able to disambiguate even hard instances of graph isomorphism. We perform an extensive experimental evaluation on graph classification and regression tasks and obtain state-of-the-art results in diverse real-world settings including molecular graphs and social networks. The code is publicly available at https://github.com/gbouritsas/graph-substructure-networks.

研究动机与目标

  • 为解决标准GNN表达能力受限的问题,其表达能力受Weisfeiler-Leman(WL)测试限制,无法区分某些非同构图。
  • 使GNN能够检测并计数子结构——这在生物信息学、化学和网络科学中至关重要——同时不牺牲图同构不变性。
  • 开发一种消息传递框架,通过源自子结构计数的结构归纳偏置打破局部对称性。
  • 在保持比标准GNN更高表达能力的同时,维持计算效率和局部性。
  • 在真实世界图分类和回归任务中实证验证模型性能,包括分子和社交网络。

提出的方法

  • 该方法提出图子结构网络(GSN),通过在每个节点或边上计数同构子图(如环、图元)来增强消息传递的子结构编码。
  • 对于每个邻居,消息通过子结构计数的可学习函数加权——分别为基于顶点的(GSN-v)或基于边的(GSN-e)——以打破对称性并编码拓扑上下文。
  • 聚合使用方向平均算子,注意力系数由子结构计数导出:对于GSN-e,α_v,u = |x^E_v,u| / (ε + Σ_u |x^E_v,u|),对于GSN-v,α_v,u = |x^V_v - x^V_u| / (ε + Σ_u |x^V_v - x^V_u|)。
  • 通过多层感知机(MLP)对聚合消息进行更新,保留标准GNN消息传递结构,并增加结构不变性。
  • 模型通过标准优化方法端到端训练,子结构类型(如长度为3–12的环)通过在验证集性能上进行超参数搜索选择。
  • 使用带有结构标识符的DeepSets作为基线进行比较,宽度和深度与GSN匹配以实现公平评估。

实验结果

研究问题

  • RQ1能否通过在消息传递中引入子结构计数,使GNN的表达能力超越Weisfeiler-Leman测试?
  • RQ2子结构编码是否能使GNN区分图同构的难题,如强正则图?
  • RQ3基于子结构的归纳偏置能否在不增加计算复杂度的前提下提升真实世界图学习任务的性能?
  • RQ4子结构选择(如环、图元)如何影响不同数据集上的模型性能?
  • RQ5通过子结构计数引入结构不变性是否能保持同构不变性,同时实现更好的泛化能力?

主要发现

  • GSN在ogbg-molhiv和ZINC数据集上达到最先进性能,其中GSN-e使用6-顶点环图元时在验证集ROC-AUC上表现最佳。
  • 在TUDatasets基准测试中,GSN优于标准GNN和基线模型,尤其在MUTAG和Proteins数据集中,更小的GSN变体(宽度或深度减少)因过拟合减少而优于更大的模型。
  • 该模型的表达能力严格高于标准GNN和WL测试,能够区分WL测试无法区分的非同构图。
  • 带有结构标识符的DeepSets基线在MUTAG和Proteins上达到最先进结果,表明结构特征本身已足够强大,但GSN通过将它们整合到消息传递中进一步提升了性能。
  • 消融研究显示,通过验证性能选择子结构至关重要,其中长度为6的环基图元在ogbg-molhiv上表现最优。
  • 该模型保持线性复杂度和局部性,不同于遵循WL层级的高阶GNN,使其在真实世界图上更具可扩展性和实用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。