Skip to main content
QUICK REVIEW

[论文解读] UWB-GCN: Hardware Acceleration of Graph-Convolution-Network through Runtime Workload Rebalancing.

Tong Geng, Ang Li|arXiv (Cornell University)|Aug 23, 2019
Advanced Graph Neural Networks参考文献 9被引用 8
一句话总结

本文提出AWB-GCN,一种用于图卷积网络的硬件加速器,通过运行时工作负载重新平衡(包括动态分布平滑、远程切换和行重映射)来解决大规模、非平衡真实世界图中的性能瓶颈。在包含4K处理元素的FPGA上,该方法在五个数据集上实现了平均7.7倍的处理单元(PE)利用率提升,相较于CPU最高达3255倍的加速比。

ABSTRACT

Deep learning systems have been successfully applied to Euclidean data such as images, video, and audio. In many applications, however, information and their relationships are better expressed with graphs. Graph Convolutional Networks (GCNs) appear to be a promising approach to efficiently learn from graph data structures, having shown advantages in many critical applications. As with other deep learning modalities, hardware acceleration is critical. The challenge is that real-world graphs are often extremely large and unbalanced; this poses significant performance demands and design challenges. In this paper, we propose Autotuning-Workload-Balancing GCN (AWB-GCN) to accelerate GCN inference. To address the issue of workload imbalance in processing real-world graphs, three hardware-based autotuning techniques are proposed: dynamic distribution smoothing, remote switching, and row remapping. In particular, AWB-GCN continuously monitors the sparse graph pattern, dynamically adjusts the workload distribution among a large number of processing elements (up to 4K PEs), and, after converging, reuses the ideal configuration. Evaluation is performed using an Intel D5005 FPGA with five commonly-used datasets. Results show that 4K-PE AWB-GCN can significantly elevate PE utilization by 7.7x on average and demonstrate considerable performance speedups over CPUs (3255x), GPUs (80.3x), and a prior GCN accelerator (5.1x).

研究动机与目标

  • 解决大规模真实世界图在GCN推理过程中极端工作负载不平衡的挑战。
  • 通过动态适应稀疏图访问模式,提升GCN加速器的硬件效率与性能。
  • 在可扩展的、大规模并行架构(最高达4K PEs)中最大化处理单元(PE)利用率。
  • 相比CPU、GPU及先前的GCN加速器,降低推理延迟与能耗。
  • 通过自动调优实现高效、可重用的配置,收敛至最优工作负载分布。

提出的方法

  • 在运行时动态监控稀疏图访问模式,检测处理单元(PE)之间的负载不平衡。
  • 应用动态分布平滑技术实时重新分配工作负载,最小化空闲PE并均衡计算负载。
  • 采用远程切换机制,在检测到负载不平衡时将计算任务重定向至负载较轻的PE,提升负载分布均衡性。
  • 利用行重映射技术根据访问热点重新组织图数据布局,减少通信与内存访问开销。
  • 集成自动调优机制,在收敛后识别并重用最优工作负载配置,降低重新配置开销。
  • 在Intel D5005 FPGA上部署加速器,评估其在五个标准GCN数据集上的性能表现。

实验结果

研究问题

  • RQ1如何有效应用运行时工作负载重新平衡技术,以加速大规模非平衡图上的GCN推理?
  • RQ2在4K-PE的GCN加速器中,动态分布平滑、远程切换与行重映射在提升PE利用率方面能达到何种程度?
  • RQ3通过硬件级自动调优,相较于CPU、GPU及先前的GCN加速器,可实现多大性能提升?
  • RQ4通过运行时自动调优识别出的最优工作负载配置在稳定性和可重用性方面表现如何?
  • RQ5所提出的技术能否在具有不同稀疏度和访问模式的多样化真实世界图数据集上保持高性能?

主要发现

  • AWB-GCN在真实世界图上相较基线方法实现了平均7.7倍的处理单元(PE)利用率提升。
  • AWB-GCN的4K-PE实现版本在五个基准数据集上相较CPU实现3255倍加速,相较GPU实现80.3倍加速。
  • 与先前的GCN加速器相比,AWB-GCN因更优的工作负载均衡与运行时自适应能力,实现了5.1倍性能提升。
  • 自动调优机制成功识别并重用收敛后的最优工作负载配置,显著降低重新配置开销。
  • 动态分布平滑与远程切换技术有效缓解热点与空闲PE问题,尤其在访问模式高度偏斜的图中表现显著。
  • 行重映射有效降低内存访问延迟并提升数据局部性,从而增强稀疏图处理的整体吞吐量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。