QUICK REVIEW

[논문 리뷰] GRIP: A Graph Neural Network Accelerator Architecture

Kevin Kiningham, Christopher Ré|arXiv (Cornell University)|2020. 07. 27.

Advanced Graph Neural Networks인용 수 23

한 줄 요약

GRIP은 엣지 중심 및 노드 중심 계산 단계를 위한 하드웨어 특화를 통해 저지연 그래프 신경망(GNN) 추론을 위한 전용 ASIC 가속기 아키텍처이다. 이는 노드 타일링과 가중치 및 노드플로우 데이터를 위한 전용 메모리 서브시스템과 같은 기법들을 통해 CPU 및 GPU 기준 대비 각각 17배, 23배의 99번째 백분율 지연 감소를 달성하면서도 전력 소모는 오직 5W에 그친다.

ABSTRACT

We present GRIP, a graph neural network accelerator architecture designed for low-latency inference. AcceleratingGNNs is challenging because they combine two distinct types of computation: arithmetic-intensive vertex-centric operations and memory-intensive edge-centric operations. GRIP splits GNN inference into a fixed set of edge- and vertex-centric execution phases that can be implemented in hardware. We then specialize each unit for the unique computational structure found in each phase.For vertex-centric phases, GRIP uses a high performance matrix multiply engine coupled with a dedicated memory subsystem for weights to improve reuse. For edge-centric phases, GRIP use multiple parallel prefetch and reduction engines to alleviate the irregularity in memory accesses. Finally, GRIP supports severalGNN optimizations, including a novel optimization called vertex-tiling which increases the reuse of weight data.We evaluate GRIP by performing synthesis and place and route for a 28nm implementation capable of executing inference for several widely-used GNN models (GCN, GraphSAGE, G-GCN, and GIN). Across several benchmark graphs, it reduces 99th percentile latency by a geometric mean of 17x and 23x compared to a CPU and GPU baseline, respectively, while drawing only 5W.

연구 동기 및 목표

일반적인 하드웨어에서 GNN의 높은 추론 지연을 해결하기 위해 비정규적인 메모리 액세스와 혼합 워크로드의 원인을 해결한다.
GNN 내에서 산술 중심의 노드 중심 연산과 메모리 중심의 엣지 중심 연산을 효율적으로 처리할 수 있는 전용 가속기를 설계한다.
알고리즘과 하드웨어를 공동 설계하여 온라인 GNN 추론의 지연과 전력 소비를 줄인다.
다양한 GNN 모델(GCN, GraphSAGE, G-GCN, GIN)을 단일 하드웨어 플랫폼에서 효율적으로 실행할 수 있도록 한다.

제안 방법

GRIP은 GNN 추론을 고정된 엣지 중심 및 노드 중심 실행 단계로 분해하며, 각각 전용 하드웨어 유닛으로 구현한다.
노드 중심 단계에서 재사용을 극대화하기 위해 가중치를 위한 전용 片내 메모리 서브시스템을 갖춘 고성능 행렬 곱셈 엔진을 사용한다.
엣지 중심 단계에서는 비정규적인 메모리 액세스 패턴을 처리하고 데이터 국소성을 향상시키기 위해 다수의 병렬 프리패치 및 감소 엔진을 활용한다.
노드 타일링은 추론 중에 서로 다른 노드들 간에 가중치 행렬의 재사용을 증가시키기 위한 새로운 최적화 기법이다.
노드플로우 파artitions 간의 파ip라이닝과 레이어 간의 가중치 사전 로딩을 통해 지연을 숨긴다.
28nm ASIC 구현을 수행하여 배치 및 라우팅를 완료하였으며, 최적화된 메모리 및 계산 유닛을 통해 네 가지 주요 GNN 모델을 지원한다.

실험 결과

연구 질문

RQ1GNN의 이중적인 계산 성격—노드 중심의 산술 연산과 엣지 중심의 메모리 액세스—를 동시에 효율적으로 처리할 수 있는 하드웨어 가속기를 설계할 수 있는가?
RQ2특화된 하드웨어를 통해 엣지 중심 GNN 연산에서 발생하는 비정규적인 메모리 액세스 패턴을 어떻게 완화할 수 있는가?
RQ3노드 타일링과 같은 알고리즘 최적화 기법이 하드웨어에서 얼마나 빠르게 가속화될 수 있으며, GNN 추론 성능 향상에 기여하는가?
RQ4전용 가속기 하드웨어와 함께 GNN 알고리즘을 공동 설계할 경우 발생하는 성능 및 에너지의 상호 보완적 특성은 어떠한가?
RQ5실제 GNN 워크로드에 대해 제안된 가속기가 일반 목적의 CPU와 GPU에 비해 지연과 에너지 효율성 측면에서 어떻게 비교되는가?

주요 결과

GRIP은 다양한 벤치마크 그래프에서 인텔 Xeon CPU 대비 99번째 백분율 추론 지연을 기하 평균 17배 감소시켰다.
GRIP은 NVIDIA P100 GPU 대비 99번째 백분율 지연에서 23배의 성능 향상을 달성하면서도 전력 소모는 오직 5W에 머무르며, 에너지 효율성이 뛰어나다.
노드 타일링 최적화 기법은 가중치 재사용을 크게 향상시켜 직접적으로 지연 감소와 에너지 효율성 향상에 기여한다.
DRAM 대역폭은 총 전력의 53.7%를 소비하는 가장 에너지 집약적인 구성 요소로, 주로 첫 번째 GCN 레이어에서 고용량 데이터 전송이 발생하기 때문이다.
외부 메모리에 가중치를 저장하는 TPU+ 버전은 단지 11.3배의 성능 향상을 기록하여, GRIP에서 적용한 片내 가중치 저장 방식의 유용성을 입증한다.
유사한 구성의 Graphicionado 기반 베이스라인은 가중치 대역폭 제약과 타일링 지원 부족으로 인해 단지 2.4배의 성능 향상에 그쳤다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.