Skip to main content
QUICK REVIEW

[论文解读] GRIP: A Graph Neural Network Accelerator Architecture

Kevin Kiningham, Christopher Ré|arXiv (Cornell University)|Jul 27, 2020
Advanced Graph Neural Networks被引用 23
一句话总结

GRIP 是一种针对低延迟图神经网络(GNN)推理的专用 ASIC 加速器架构,通过硬件专用化实现边中心和顶点中心计算阶段的高效处理。它通过顶点分块(vertex-tiling)和专用内存子系统(用于权重和节点流数据)等技术,将 99 百分位延迟分别降低至 CPU 和 GPU 基线的 17 倍和 23 倍,同时仅消耗 5W 功耗。

ABSTRACT

We present GRIP, a graph neural network accelerator architecture designed for low-latency inference. AcceleratingGNNs is challenging because they combine two distinct types of computation: arithmetic-intensive vertex-centric operations and memory-intensive edge-centric operations. GRIP splits GNN inference into a fixed set of edge- and vertex-centric execution phases that can be implemented in hardware. We then specialize each unit for the unique computational structure found in each phase.For vertex-centric phases, GRIP uses a high performance matrix multiply engine coupled with a dedicated memory subsystem for weights to improve reuse. For edge-centric phases, GRIP use multiple parallel prefetch and reduction engines to alleviate the irregularity in memory accesses. Finally, GRIP supports severalGNN optimizations, including a novel optimization called vertex-tiling which increases the reuse of weight data.We evaluate GRIP by performing synthesis and place and route for a 28nm implementation capable of executing inference for several widely-used GNN models (GCN, GraphSAGE, G-GCN, and GIN). Across several benchmark graphs, it reduces 99th percentile latency by a geometric mean of 17x and 23x compared to a CPU and GPU baseline, respectively, while drawing only 5W.

研究动机与目标

  • 为解决传统硬件上 GNN 推理延迟较高的问题,其原因在于不规则内存访问和混合工作负载。
  • 设计一种专用加速器,高效处理 GNN 中计算密集型的顶点中心操作和内存密集型的边中心操作。
  • 通过算法与硬件协同设计,降低在线 GNN 推理的延迟和功耗。
  • 实现在单一硬件平台上高效执行多种 GNN 模型(GCN、GraphSAGE、G-GCN、GIN)的目标。

提出的方法

  • GRIP 将 GNN 推理分解为固定的边中心和顶点中心执行阶段,每个阶段均由专用硬件单元实现。
  • 其采用高性能矩阵乘法引擎,并配备专用片上内存子系统用于存储权重,以在顶点中心阶段最大化权重重用。
  • 在边中心阶段,多个并行预取和归约引擎用于处理不规则内存访问模式,提升数据局部性。
  • 引入顶点分块(vertex-tiling)作为一项新颖优化,以在推理过程中提高不同顶点间权重矩阵的重用率。
  • 该架构支持节点流分区之间的流水线处理,并支持层间权重预加载,以隐藏延迟。
  • 已合成并完成布局布线的 28nm ASIC 实现,支持四种主流 GNN 模型,配备优化后的内存与计算单元。

实验结果

研究问题

  • RQ1能否设计一种硬件加速器,以同时高效处理 GNN 的双重计算特性——顶点中心的算术运算与边中心的内存访问?
  • RQ2如何通过专用硬件缓解边中心 GNN 操作中不规则内存访问模式的影响?
  • RQ3硬件能否显著加速如顶点分块等算法优化,从而提升 GNN 推理性能?
  • RQ4在协同设计 GNN 算法与专用加速硬件时,会产生哪些性能与能效权衡?
  • RQ5在真实世界 GNN 工作负载下,所提出的加速器相较于通用 CPU 和 GPU,在延迟和能效方面表现如何?

主要发现

  • GRIP 在多个基准图上,与英特尔至强 CPU 相比,将 99 百分位推理延迟几何平均降低 17 倍。
  • GRIP 在 99 百分位延迟上相较 NVIDIA P100 GPU 实现 23 倍加速,同时仅消耗 5W 功耗。
  • 顶点分块优化显著提升了权重重用率,直接贡献于降低延迟和提升能效。
  • DRAM 带宽是功耗最高的组件,占总功耗的 53.7%,主要由于第一层 GCN 中高容量数据传输。
  • TPU+ 变体(使用片外权重)仅实现 11.3 倍加速,凸显了 GRIP 中片上权重存储的优势。
  • 基于 Graphicionado 的基线(配置相似)仅实现 2.4 倍加速,主要受限于权重带宽瓶颈且缺乏分块支持。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。