[论文解读] GDR-HGNN: A Heterogeneous Graph Neural Networks Accelerator Frontend with Graph Decoupling and Recoupling
本文提出GDR-HGNN,一种异质图神经网络(HGNN)加速器的硬件前端,通过图解耦与再耦合实现动态图重构,有效缓解缓冲区颠簸问题。通过提升数据局部性并支持无缝流水线处理,GDR-HGNN在A100 GPU上实现平均14.6倍的加速,在基线HiHGNN加速器上实现1.78倍的加速,显著减少DRAM访问次数,提升带宽利用率,且仅带来极小的面积与功耗开销。
Heterogeneous Graph Neural Networks (HGNNs) have broadened the applicability of graph representation learning to heterogeneous graphs. However, the irregular memory access pattern of HGNNs leads to the buffer thrashing issue in HGNN accelerators. In this work, we identify an opportunity to address buffer thrashing in HGNN acceleration through an analysis of the topology of heterogeneous graphs. To harvest this opportunity, we propose a graph restructuring method and map it into a hardware frontend named GDR-HGNN. GDR-HGNN dynamically restructures the graph on the fly to enhance data locality for HGNN accelerators. Experimental results demonstrate that, with the assistance of GDR-HGNN, a leading HGNN accelerator achieves an average speedup of 14.6 times and 1.78 times compared to the state-of-the-art software framework running on A100 GPU and itself, respectively.
研究动机与目标
- 为解决HGNN加速器中因不规则内存访问模式导致的缓冲区颠簸问题。
- 通过异质图中语义图的拓扑分析,识别硬件优化机会。
- 设计一种轻量级硬件前端,实现运行时图重构,以提升数据局部性并减少DRAM访问次数。
- 将该前端无缝集成至现有加速器中,不损害流水线效率,且不引入显著的面积或功耗开销。
提出的方法
- 提出图解耦阶段,将每个语义图拆分为互不共享顶点的边不相交子图。
- 引入图再耦合阶段,识别一组顶点,使得原始图中的每条边至少与该组中的一个顶点相连。
- 将原始语义图重构为多个以顶点组为中心的子图,形成强社区结构。
- 设计硬件前端(GDR-HGNN),包含解耦器与再耦合器,实现在加速前的运行时图重构。
- 将前端集成至加速器流水线中,保持连续数据流,减少缓冲区替换。
- 仅使用少量缓冲区存储边与顶点索引,从而将面积与功耗开销保持在极低水平(在TSMC 12nm工艺下分别为2.30%和0.46%)。
实验结果
研究问题
- RQ1能否利用HGNN中语义图的二分图拓扑特性,减少加速器中的缓冲区颠簸?
- RQ2图重构如何改善数据局部性并减少HGNN工作负载中的DRAM访问次数?
- RQ3将动态图重构前端集成至现有HGNN加速器时,其性能表现与硬件开销如何?
- RQ4所提方法能否在减少冗余内存访问的同时维持高带宽利用率?
主要发现
- GDR-HGNN在A100 GPU上运行的最先进软件框架基础上,实现平均14.6倍的加速。
- 将GDR-HGNN与HiHGNN加速器集成后,相比仅使用HiHGNN,性能提升1.78倍。
- DRAM访问次数降低至T4 GPU的4.8%、A100 GPU的8.7%以及HiHGNN的57.1%,证实内存流量显著减少。
- 与T4 GPU相比,DRAM带宽利用率提升2.58倍;与A100 GPU相比,提升6.35倍,表明内存使用效率更高。
- 在TSMC 12nm工艺下,与HiHGNN集成后,硬件前端的面积开销仅为2.30%,功耗开销仅为0.46%。
- 性能提升主要源于数据局部性的改善以及因结构化子图处理带来的流水线不间断利用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。