Skip to main content
QUICK REVIEW

[论文解读] Understanding Attention and Generalization in Graph Neural Networks

B. A. Knyazev, Graham W. Taylor|arXiv (Cornell University)|May 8, 2019
Advanced Graph Neural Networks参考文献 30被引用 55
一句话总结

本文研究 GNNs 中的节点注意力,结果表明在初始化良好或弱监督时,注意力可显著提升对更大/嘈杂图的泛化能力,但在缺乏合适训练或初始化时往往不稳定。

ABSTRACT

We aim to better understand attention over nodes in graph neural networks (GNNs) and identify factors influencing its effectiveness. We particularly focus on the ability of attention GNNs to generalize to larger, more complex or noisy graphs. Motivated by insights from the work on Graph Isomorphism Networks, we design simple graph reasoning tasks that allow us to study attention in a controlled environment. We find that under typical conditions the effect of attention is negligible or even harmful, but under certain conditions it provides an exceptional gain in performance of more than 60% in some of our classification tasks. Satisfying these conditions in practice is challenging and often requires optimal initialization or supervised training of attention. We propose an alternative recipe and train attention in a weakly-supervised fashion that approaches the performance of supervised models, and, compared to unsupervised models, improves results on several synthetic as well as real datasets. Source code and datasets are available at https://github.com/bknyaz/graph_attention_pool.

研究动机与目标

  • 研究何时对节点的注意力有助于提升 GNN 的性能。
  • 理解影响 GNN 中注意力有效性的因素。
  • 评估具备注意力的 GNN 对更大、更复杂或更嘈杂的图的泛化能力。

提出的方法

  • 将注意力与聚合(pooling)集成,形成一个统一的 GNN 模块。
  • 比较两种注意力机制:线性投影和基于 DiffPool 的子网络。
  • 引入一种基于阈值的聚合变体,通过注意力丢弃节点,类似于 top-k pooling。
  • 使用带 KL 散度损失的注意力的监督、无监督和弱监督训练。
  • 提出 ChebyGIN,一种多尺度的 Chebyshev/GNN 混合,以改善训练动态。

实验结果

研究问题

  • RQ1在什么条件下,注意力对 GNN 的性能带来提升、而不是微不足道甚至有害于 GNN?
  • RQ2注意力如何影响跨任务对更大或更嘈杂的图的泛化?
  • RQ3注意力的弱监督训练方案能否接近完全监督注意力的性能?
  • RQ4影响 GNN 中注意力性能的关键因素有哪些(初始化、基础 GNN 的强度、超参数等)?
  • RQ5所提出的基于注意力的聚合与现有的聚合方法(如 DiffPool 和 top-k pooling)相比如何?

主要发现

  • 在条件达到时,注意力在某些分类任务上可实现>60% 的性能提升。
  • 在典型设置下,若未对初始化/训练进行谨慎管理,注意力效应要么微不足道,要么有害。
  • 有监督或弱监督的注意力显著提高对更大/更嘈杂图在合成和真实数据集上的鲁棒性和泛化能力。
  • 注意力模型的初始化不良可能使模型陷入次优的聚合选择;良好的初始化对实现强性能至关重要。
  • 弱监督注意力训练显著缩小与监督注意力的差距,在多个数据集上优于无监督方法。
  • ChebyGIN(Chebyshev/GNN 混合)在结合注意力时提升了训练动态和性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。