QUICK REVIEW

[論文レビュー] GRIP: A Graph Neural Network Accelerator Architecture

Kevin Kiningham, Christopher Ré|arXiv (Cornell University)|Jul 27, 2020

Advanced Graph Neural Networks被引用数 23

ひとこと要約

GRIPは、エッジおよび頂点中心の計算フェーズのためのハードウェア特化を活用した、低遅延グラフニューラルネットワーク（GNN）推論向けの専用ASICアクセラレータアーキテクチャである。頂点タイリングや重みおよびノードフロー・データ用の専用メモリサブシステムといった技術により、5Wの消費電力でCPUおよびGPUベースラインと比べて99パーセンタイル遅延をそれぞれ17倍および23倍低減した。

ABSTRACT

We present GRIP, a graph neural network accelerator architecture designed for low-latency inference. AcceleratingGNNs is challenging because they combine two distinct types of computation: arithmetic-intensive vertex-centric operations and memory-intensive edge-centric operations. GRIP splits GNN inference into a fixed set of edge- and vertex-centric execution phases that can be implemented in hardware. We then specialize each unit for the unique computational structure found in each phase.For vertex-centric phases, GRIP uses a high performance matrix multiply engine coupled with a dedicated memory subsystem for weights to improve reuse. For edge-centric phases, GRIP use multiple parallel prefetch and reduction engines to alleviate the irregularity in memory accesses. Finally, GRIP supports severalGNN optimizations, including a novel optimization called vertex-tiling which increases the reuse of weight data.We evaluate GRIP by performing synthesis and place and route for a 28nm implementation capable of executing inference for several widely-used GNN models (GCN, GraphSAGE, G-GCN, and GIN). Across several benchmark graphs, it reduces 99th percentile latency by a geometric mean of 17x and 23x compared to a CPU and GPU baseline, respectively, while drawing only 5W.

研究の動機と目的

従来のハードウェアでは、不規則なメモリアクセスと混合ワークロードのため、GNNの推論遅延が高くなる問題に対処すること。
GNNにおける演算集約的な頂点中心の処理とメモリ集約的なエッジ中心の処理の両方を効率的に処理できる専用アクセラレータを設計すること。
アルゴリズムとハードウェアの共同最適化により、オンラインGNN推論の遅延と消費電力を低減すること。
GCN、GraphSAGE、G-GCN、GINといった多様なGNNモデルを、1つのハードウェアプラットフォームで効率的に実行可能にすること。

提案手法

GRIPは、GNN推論を固定されたエッジ中心および頂点中心の実行フェーズに分解し、それぞれに専用のハードウェアユニットを実装する。
頂点中心フェーズにおける再利用を最大化するため、重み用の専用オンチップメモリサブシステムを備えた高性能な行列乗算エンジンを採用する。
エッジ中心フェーズでは、不規則なメモリアクセスパターンに対処し、データ局所性を向上させるために、複数の並列プリフェッチおよびリダクションエンジンを活用する。
頂点タイリングは、推論中に異なる頂点間で重み行列の再利用を向上させる、新しい最適化手法である。
ノードフローパーティション間のパイプライン処理と、層間での重みプリロードにより、遅延を隠蔽する。
28nm ASIC実装が合成され、配置・配線が完了しており、最適化されたメモリおよび演算ユニットを備えており、4つの主要なGNNモデルをサポートする。

実験結果

リサーチクエスチョン

RQ1GNNの二重な計算特性（頂点中心の演算とエッジ中心のメモリアクセス）を同時に効率的に処理できるハードウェアアクセラレータを設計可能か？
RQ2エッジ中心のGNN処理における不規則なメモリアクセスパターンは、どのように専用ハードウェアによって軽減できるか？
RQ3頂点タイリングのようなアルゴリズム最適化は、ハードウェアでどの程度加速可能であり、GNN推論性能にどのように寄与するか？
RQ4専用アクセラレータハードウェアとGNNアルゴリズムを共同設計する際、生じるパフォーマンスとエネルギーのトレードオフはどのようなものか？
RQ5実世界のGNNワークロードにおいて、提案されたアクセラレータは一般用途のCPUおよびGPUと比べて、遅延とエネルギー効率の点でどの程度優れているか？

主な発見

GRIPは、複数のベンチマークグラフにおいて、Intel Xeon CPUと比べて99パーセンタイル推論遅延を幾何平均で17倍低減した。
GRIPは、NVIDIA P100 GPUと比べて99パーセンタイル遅延で23倍の高速化を達成したが、消費電力はわずか5Wであった。
頂点タイリング最適化により、重みの再利用が顕著に向上し、直接的に遅延低減とエネルギー効率の向上に寄与した。
DRAM帯域幅が最もエネルギー集約的なコンponentであり、合計消費電力の53.7％を占めており、主に最初のGCNレイヤーでの大量データ転送に起因する。
オフチップ重みを用いるTPU+バージョンは、わずか11.3倍の高速化にとどまり、GRIPが実装したオンチップ重みストレージの利点を浮き彫りにした。
同様の構成のGraphicionadoベースラインは、重み帯域幅のボトルネックとタイリングサポートの欠如により、わずか2.4倍の高速化にとどまった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。