QUICK REVIEW

[論文レビュー] UWB-GCN: Hardware Acceleration of Graph-Convolution-Network through Runtime Workload Rebalancing.

Tong Geng, Ang Li|arXiv (Cornell University)|Aug 23, 2019

Advanced Graph Neural Networks参考文献 9被引用数 8

ひとこと要約

本論文では、実行時ワークロード再平衡を動的分布平滑化、リモートスイッチング、および行リマップを用いて、大規模で非均一な実世界のグラフにおけるパフォーマンスボトルネックに対処する、グラフ畳み込みネットワーク（GCN）向けのハードウェアアクセラレータAWB-GCNを提案する。5つのデータセットで4K PEsを搭載したFPGA上において、平均7.7倍のPE利用率向上と、CPU比最大3255倍の高速化を達成した。

ABSTRACT

Deep learning systems have been successfully applied to Euclidean data such as images, video, and audio. In many applications, however, information and their relationships are better expressed with graphs. Graph Convolutional Networks (GCNs) appear to be a promising approach to efficiently learn from graph data structures, having shown advantages in many critical applications. As with other deep learning modalities, hardware acceleration is critical. The challenge is that real-world graphs are often extremely large and unbalanced; this poses significant performance demands and design challenges. In this paper, we propose Autotuning-Workload-Balancing GCN (AWB-GCN) to accelerate GCN inference. To address the issue of workload imbalance in processing real-world graphs, three hardware-based autotuning techniques are proposed: dynamic distribution smoothing, remote switching, and row remapping. In particular, AWB-GCN continuously monitors the sparse graph pattern, dynamically adjusts the workload distribution among a large number of processing elements (up to 4K PEs), and, after converging, reuses the ideal configuration. Evaluation is performed using an Intel D5005 FPGA with five commonly-used datasets. Results show that 4K-PE AWB-GCN can significantly elevate PE utilization by 7.7x on average and demonstrate considerable performance speedups over CPUs (3255x), GPUs (80.3x), and a prior GCN accelerator (5.1x).

研究の動機と目的

大規模で実世界のグラフにおけるGCN推論における極端なワークロード非均一性の課題に対処すること。
スパースなグラフアクセスパターンに動的に適応することで、GCNアクセラレータのハードウェア効率とパフォーマンスを向上させること。
スケーラブルで大規模並列アーキテクチャ（最大4K PEs）において、処理素子（PE）の利用率を最大化すること。
CPU、GPU、および先行のGCNアクセラレータと比較して、推論遅延とエネルギー消費量を低減すること。
収束後に最適なワークロード分布に到達する自動チューニングにより、効率的かつ再利用可能な設定を可能とすること。

提案手法

実行時にスパースなグラフアクセスパターンを動的にモニタリングし、処理素子（PE）間でのワークロード非均一性を検出する。
実時間でのワークロード再配分を実行する動的分布平滑化を適用し、空き状態のPEを最小限に抑え、計算負荷をバランスさせる。
非均一性が検出された際に、より余剰なPEに計算をリダイレクトするリモートスイッチングを採用し、負荷分散を改善する。
アクセスホットスポットに基づいてグラフデータレイアウトを再編成する行リマップを用い、通信およびメモリアクセスのオーバーヘッドを低減する。
収束後に最適なワークロード設定を特定・再利用できる自動チューニングを統合し、再構成コストを最小限に抑える。
5つの標準的なGCNデータセットにおけるパフォーマンス評価を目的として、Intel D5005 FPGAにアクセラレータを実装した。

実験結果

リサーチクエスチョン

RQ1実行時ワークロード再平衡を、大規模で非均一なグラフにおけるGCN推論を高速化するために効果的に適用する方法は何か？
RQ2動的分布平滑化、リモートスイッチング、および行リマップは、4K-PEのGCNアクセラレータにおけるPE利用率をどの程度向上させ得るか？
RQ3ハードウェアベースの自動チューニングを用いることで、CPU、GPU、および先行のGCNアクセラレータと比較してどの程度のパフォーマンス向上が達成できるか？
RQ4実行時自動チューニングによって特定された最適なワークロード設定は、どの程度安定的で再利用可能か？
RQ5提案手法は、スパarsityやアクセスパターンが異なる多様な実世界のグラフデータセットにおいても、高いパフォーマンスを維持できるか？

主な発見

AWB-GCNは、実世界のグラフにおいて、ベースライン手法と比較して平均7.7倍の処理素子（PE）利用率向上を達成した。
4K-PEのAWB-GCN実装は、5つのベンチマークデータセット全体でCPU比3255倍、GPU比80.3倍の高速化を達成した。
先行のGCNアクセラレータと比較して、優れたワークロードバランスと実行時適応性のおかげで5.1倍のパフォーマンス向上を達成した。
自動チューニング機構は収束後に最適なワークロード設定を効果的に特定・再利用でき、再構成オーバーヘッドを低減した。
動的分布平滑化とリモートスイッチングは、特にアクセスパターンが著しく偏ったグラフにおいて、ホットスポットと空きPEを効果的に緩和した。
行リマップは、メモリアクセス遅延の低減とデータ局所性の向上に寄与し、スパースグラフ処理における全体のスループットを向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。