[论文解读] GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs
GaAN 引入了一个门控多头注意力图聚合器,其中一个小型卷积子网络为每个中心节点的每个注意头进行门控,从而提升归纳节点分类并实现 Graph Gated Recurrent Unit (GGRU) 以进行时空预测。
We propose a new network architecture, Gated Attention Networks (GaAN), for learning on graphs. Unlike the traditional multi-head attention mechanism, which equally consumes all attention heads, GaAN uses a convolutional sub-network to control each attention head's importance. We demonstrate the effectiveness of GaAN on the inductive node classification problem. Moreover, with GaAN as a building block, we construct the Graph Gated Recurrent Unit (GGRU) to address the traffic speed forecasting problem. Extensive experiments on three real-world datasets show that our GaAN framework achieves state-of-the-art results on both tasks.
研究动机与目标
- 设计一个图聚合器,学习哪些注意头对于中心节点的邻域最具信息性。
- 开发 GaAN,一个门控多头注意力聚合器,以改善大图上的节点表征学习。
- 将 GaAN 扩展到循环结构(GGRU),用于图上的时空预测。
- 通过改进采样与邻居合并策略提升在大图上的训练效率。
- 在归纳节点分类与交通速度预测数据集上展示最先进的性能。
提出的方法
- 提出 GaAN:一个带有门控子网络的多头注意力聚合器,为每个中心节点的每个头分配一个门标量。
- 使用轻量级卷积网络计算门 g_i^(k),该网络汇聚中心节点和邻居特征(Eq. 3)。
- 将门融入标准的多头注意力聚合(Eq. 2),以调制每个头的贡献。
- 提供一个统一框架,将任意图聚合器转化为用于时空预测的循环单元(Graph GRU 方程在 Section 6.1)。
- 提出内存高效的邻居采样与合并(类似 GraphSAGE),以在训练时处理大图。
- 将 GaAN 与多个基线(基于注意力、基于池化、以及成对求和聚合器)在 PPI 与 Reddit 的节点分类,以及 METR-LA 的交通预测进行比较。
实验结果
研究问题
- RQ1在归纳节点分类任务上,向多头注意力添加门是否能优于标准多头注意力?
- RQ2GaAN 能否在现实世界的大图上优于池化和成对求和图聚合器?
- RQ3GaAN 是否可以推广到用于时空预测的 Graph GRU 框架?
- RQ4门设计、注意头数量和采样策略对性能和效率有何影响?
主要发现
- GaAN 在 PPI 与 Reddit 的归纳节点分类基准上实现了微F1的最新水平,相对于基线聚合器和仅注意力的模型。
- 带门控的注意力(GaAN)在相同头数条件下始终优于标准多头注意力,体现了头级门控的好处。
- 更大的输出维度和更多的注意头可以提升性能,存在数据集相关的趋势(PPI 与 Reddit)。
- 较小维度的门控网络(d_m = 64)足以提供有意义的头部门控且开销较低。
- 基于 GaAN 的 GGRU 提升了时空预测能力,提供一种统一的基于图的序列预测方法。
- 实验结果表明在各数据集和任务上相对于基线具有显著的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。