QUICK REVIEW

[论文解读] GRIP: A Graph Neural Network Accelerator Architecture

Kevin Kiningham, Christopher Ré|arXiv (Cornell University)|Jul 27, 2020

Advanced Graph Neural Networks被引用 23

一句话总结

GRIP 是一种针对低延迟图神经网络（GNN）推理的专用 ASIC 加速器架构，通过硬件专用化实现边中心和顶点中心计算阶段的高效处理。它通过顶点分块（vertex-tiling）和专用内存子系统（用于权重和节点流数据）等技术，将 99 百分位延迟分别降低至 CPU 和 GPU 基线的 17 倍和 23 倍，同时仅消耗 5W 功耗。

ABSTRACT

We present GRIP, a graph neural network accelerator architecture designed for low-latency inference. AcceleratingGNNs is challenging because they combine two distinct types of computation: arithmetic-intensive vertex-centric operations and memory-intensive edge-centric operations. GRIP splits GNN inference into a fixed set of edge- and vertex-centric execution phases that can be implemented in hardware. We then specialize each unit for the unique computational structure found in each phase.For vertex-centric phases, GRIP uses a high performance matrix multiply engine coupled with a dedicated memory subsystem for weights to improve reuse. For edge-centric phases, GRIP use multiple parallel prefetch and reduction engines to alleviate the irregularity in memory accesses. Finally, GRIP supports severalGNN optimizations, including a novel optimization called vertex-tiling which increases the reuse of weight data.We evaluate GRIP by performing synthesis and place and route for a 28nm implementation capable of executing inference for several widely-used GNN models (GCN, GraphSAGE, G-GCN, and GIN). Across several benchmark graphs, it reduces 99th percentile latency by a geometric mean of 17x and 23x compared to a CPU and GPU baseline, respectively, while drawing only 5W.

研究动机与目标

为解决传统硬件上 GNN 推理延迟较高的问题，其原因在于不规则内存访问和混合工作负载。
设计一种专用加速器，高效处理 GNN 中计算密集型的顶点中心操作和内存密集型的边中心操作。
通过算法与硬件协同设计，降低在线 GNN 推理的延迟和功耗。
实现在单一硬件平台上高效执行多种 GNN 模型（GCN、GraphSAGE、G-GCN、GIN）的目标。

提出的方法

GRIP 将 GNN 推理分解为固定的边中心和顶点中心执行阶段，每个阶段均由专用硬件单元实现。
其采用高性能矩阵乘法引擎，并配备专用片上内存子系统用于存储权重，以在顶点中心阶段最大化权重重用。
在边中心阶段，多个并行预取和归约引擎用于处理不规则内存访问模式，提升数据局部性。
引入顶点分块（vertex-tiling）作为一项新颖优化，以在推理过程中提高不同顶点间权重矩阵的重用率。
该架构支持节点流分区之间的流水线处理，并支持层间权重预加载，以隐藏延迟。
已合成并完成布局布线的 28nm ASIC 实现，支持四种主流 GNN 模型，配备优化后的内存与计算单元。

实验结果

研究问题

RQ1能否设计一种硬件加速器，以同时高效处理 GNN 的双重计算特性——顶点中心的算术运算与边中心的内存访问？
RQ2如何通过专用硬件缓解边中心 GNN 操作中不规则内存访问模式的影响？
RQ3硬件能否显著加速如顶点分块等算法优化，从而提升 GNN 推理性能？
RQ4在协同设计 GNN 算法与专用加速硬件时，会产生哪些性能与能效权衡？
RQ5在真实世界 GNN 工作负载下，所提出的加速器相较于通用 CPU 和 GPU，在延迟和能效方面表现如何？

主要发现

GRIP 在多个基准图上，与英特尔至强 CPU 相比，将 99 百分位推理延迟几何平均降低 17 倍。
GRIP 在 99 百分位延迟上相较 NVIDIA P100 GPU 实现 23 倍加速，同时仅消耗 5W 功耗。
顶点分块优化显著提升了权重重用率，直接贡献于降低延迟和提升能效。
DRAM 带宽是功耗最高的组件，占总功耗的 53.7%，主要由于第一层 GCN 中高容量数据传输。
TPU+ 变体（使用片外权重）仅实现 11.3 倍加速，凸显了 GRIP 中片上权重存储的优势。
基于 Graphicionado 的基线（配置相似）仅实现 2.4 倍加速，主要受限于权重带宽瓶颈且缺乏分块支持。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。