[論文レビュー] GDR-HGNN: A Heterogeneous Graph Neural Networks Accelerator Frontend with Graph Decoupling and Recoupling
本稿では、グラフの分離と再結合による動的グラフ再構築を通じてバッファのフラッシュを低減する、異種グラフニューラルネットワーク(HGNN)アクセラレータ向けのハードウェアフロントエンド、GDR-HGNNを提案する。データローカリティの向上とスムーズなパイプライン処理を可能にすることで、GDR-HGNNはA100 GPUに対して平均14.6倍の高速化を達成し、ベースラインのHiHGNNアクセラレータに対しては1.78倍の高速化を実現。DRAMアクセスを著しく削減し、帯域幅利用効率を向上させながら、面積と消費電力のオーバーヘッドを最小限に抑える。
Heterogeneous Graph Neural Networks (HGNNs) have broadened the applicability of graph representation learning to heterogeneous graphs. However, the irregular memory access pattern of HGNNs leads to the buffer thrashing issue in HGNN accelerators. In this work, we identify an opportunity to address buffer thrashing in HGNN acceleration through an analysis of the topology of heterogeneous graphs. To harvest this opportunity, we propose a graph restructuring method and map it into a hardware frontend named GDR-HGNN. GDR-HGNN dynamically restructures the graph on the fly to enhance data locality for HGNN accelerators. Experimental results demonstrate that, with the assistance of GDR-HGNN, a leading HGNN accelerator achieves an average speedup of 14.6 times and 1.78 times compared to the state-of-the-art software framework running on A100 GPU and itself, respectively.
研究の動機と目的
- 不規則なメモリアクセスパターンによって引き起こされるHGNNアクセラレータにおけるバッファフラッシュ問題に対処すること。
- 異種グラフ内のセマンティックグラフのトポロジー解析を通じて、ハードウェア最適化の機会を同定すること。
- 実行時におけるグラフ再構築を可能にする軽量なハードウェアフロントエンドを設計し、データローカリティの向上とDRAMアクセスの削減を実現すること。
- パイプライン効率を損なわず、顕著な面積/消費電力オーバーヘッドを引き起こさずに、既存のアクセラレータにフロントエンドを統合すること。
提案手法
- 各セマンティックグラフを共有頂点を持たない辺に disjoint なコンポーネントに分割するグラフ分離フェーズを提案する。
- 元のエッジがすべてグループ内の少なくとも1つの頂点と共有するような頂点グループを特定するグラフ再結合フェーズを導入する。
- 元のセマンティックグラフを、各頂点グループを中心とする複数のサブグラフに再構築し、強いコミュニティ構造を形成する。
- 実行時におけるグラフ再構築を実行するためのハードウェアフロントエンド(GDR-HGNN)を設計し、デコアプラーとリコアプラーを備える。
- パイプラインにフロントエンドを統合し、連続的なデータフローを維持し、バッファの置換を低減する。
- エッジおよび頂点インデックスを格納する最小限のバッファを用い、面積と消費電力のオーバーヘッドを低く抑える(TSMC 12nmでそれぞれ2.30%および0.46%)。
実験結果
リサーチクエスチョン
- RQ1HGNNにおけるセマンティックグラフの二部グラフトポロジーは、アクセラレータにおけるバッファフラッシュ低減に活用可能か?
- RQ2グラフ再構築は、HGNNワークロードにおけるデータローカリティの向上とDRAMアクセスの削減にどのように寄与するか?
- RQ3既存のHGNNアクセラレータに動的グラフ再構築フロントエンドを統合した場合の性能とハードウェアオーバーヘッドは何か?
- RQ4提案手法は、冗長なメモリアクセスを削減しつつ、高い帯域幅利用効率を維持できるか?
主な発見
- GDR-HGNNは、A100 GPU上で実行される最先端のソフトウェアフレームワークに対して平均14.6倍の高速化を達成した。
- GDR-HGNNをHiHGNNアクセラレータに統合した結果、HiHGNN単体と比較して1.78倍の高速化が得られた。
- DRAMアクセスはT4 GPUの4.8%、A100 GPUの8.7%、HiHGNNの57.1%にまで削減され、メモリトラフィックの低減が確認された。
- DRAM帯域幅利用効率はT4 GPUに対して2.58倍、A100 GPUに対して6.35倍向上し、効率的なメモリ使用が実証された。
- TSMC 12nm技術でHiHGNNと統合した場合、ハードウェアフロントエンドの面積オーバーヘッドは2.30%、消費電力オーバーヘッドは0.46%にとどまった。
- 性能向上の背景には、改善されたデータローカリティと、構造化されたサブグラフ処理に起因する途切れのないパイプライン利用が存在する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。