Skip to main content
QUICK REVIEW

[논문 리뷰] GRIP: A Graph Neural Network Accelerator Architecture

Kevin Kiningham, Christopher Ré|arXiv (Cornell University)|2020. 07. 27.
Advanced Graph Neural Networks인용 수 23
한 줄 요약

GRIP은 엣지 중심 및 노드 중심 계산 단계를 위한 하드웨어 특화를 통해 저지연 그래프 신경망(GNN) 추론을 위한 전용 ASIC 가속기 아키텍처이다. 이는 노드 타일링과 가중치 및 노드플로우 데이터를 위한 전용 메모리 서브시스템과 같은 기법들을 통해 CPU 및 GPU 기준 대비 각각 17배, 23배의 99번째 백분율 지연 감소를 달성하면서도 전력 소모는 오직 5W에 그친다.

ABSTRACT

We present GRIP, a graph neural network accelerator architecture designed for low-latency inference. AcceleratingGNNs is challenging because they combine two distinct types of computation: arithmetic-intensive vertex-centric operations and memory-intensive edge-centric operations. GRIP splits GNN inference into a fixed set of edge- and vertex-centric execution phases that can be implemented in hardware. We then specialize each unit for the unique computational structure found in each phase.For vertex-centric phases, GRIP uses a high performance matrix multiply engine coupled with a dedicated memory subsystem for weights to improve reuse. For edge-centric phases, GRIP use multiple parallel prefetch and reduction engines to alleviate the irregularity in memory accesses. Finally, GRIP supports severalGNN optimizations, including a novel optimization called vertex-tiling which increases the reuse of weight data.We evaluate GRIP by performing synthesis and place and route for a 28nm implementation capable of executing inference for several widely-used GNN models (GCN, GraphSAGE, G-GCN, and GIN). Across several benchmark graphs, it reduces 99th percentile latency by a geometric mean of 17x and 23x compared to a CPU and GPU baseline, respectively, while drawing only 5W.

연구 동기 및 목표

  • 일반적인 하드웨어에서 GNN의 높은 추론 지연을 해결하기 위해 비정규적인 메모리 액세스와 혼합 워크로드의 원인을 해결한다.
  • GNN 내에서 산술 중심의 노드 중심 연산과 메모리 중심의 엣지 중심 연산을 효율적으로 처리할 수 있는 전용 가속기를 설계한다.
  • 알고리즘과 하드웨어를 공동 설계하여 온라인 GNN 추론의 지연과 전력 소비를 줄인다.
  • 다양한 GNN 모델(GCN, GraphSAGE, G-GCN, GIN)을 단일 하드웨어 플랫폼에서 효율적으로 실행할 수 있도록 한다.

제안 방법

  • GRIP은 GNN 추론을 고정된 엣지 중심 및 노드 중심 실행 단계로 분해하며, 각각 전용 하드웨어 유닛으로 구현한다.
  • 노드 중심 단계에서 재사용을 극대화하기 위해 가중치를 위한 전용 片내 메모리 서브시스템을 갖춘 고성능 행렬 곱셈 엔진을 사용한다.
  • 엣지 중심 단계에서는 비정규적인 메모리 액세스 패턴을 처리하고 데이터 국소성을 향상시키기 위해 다수의 병렬 프리패치 및 감소 엔진을 활용한다.
  • 노드 타일링은 추론 중에 서로 다른 노드들 간에 가중치 행렬의 재사용을 증가시키기 위한 새로운 최적화 기법이다.
  • 노드플로우 파artitions 간의 파ip라이닝과 레이어 간의 가중치 사전 로딩을 통해 지연을 숨긴다.
  • 28nm ASIC 구현을 수행하여 배치 및 라우팅를 완료하였으며, 최적화된 메모리 및 계산 유닛을 통해 네 가지 주요 GNN 모델을 지원한다.

실험 결과

연구 질문

  • RQ1GNN의 이중적인 계산 성격—노드 중심의 산술 연산과 엣지 중심의 메모리 액세스—를 동시에 효율적으로 처리할 수 있는 하드웨어 가속기를 설계할 수 있는가?
  • RQ2특화된 하드웨어를 통해 엣지 중심 GNN 연산에서 발생하는 비정규적인 메모리 액세스 패턴을 어떻게 완화할 수 있는가?
  • RQ3노드 타일링과 같은 알고리즘 최적화 기법이 하드웨어에서 얼마나 빠르게 가속화될 수 있으며, GNN 추론 성능 향상에 기여하는가?
  • RQ4전용 가속기 하드웨어와 함께 GNN 알고리즘을 공동 설계할 경우 발생하는 성능 및 에너지의 상호 보완적 특성은 어떠한가?
  • RQ5실제 GNN 워크로드에 대해 제안된 가속기가 일반 목적의 CPU와 GPU에 비해 지연과 에너지 효율성 측면에서 어떻게 비교되는가?

주요 결과

  • GRIP은 다양한 벤치마크 그래프에서 인텔 Xeon CPU 대비 99번째 백분율 추론 지연을 기하 평균 17배 감소시켰다.
  • GRIP은 NVIDIA P100 GPU 대비 99번째 백분율 지연에서 23배의 성능 향상을 달성하면서도 전력 소모는 오직 5W에 머무르며, 에너지 효율성이 뛰어나다.
  • 노드 타일링 최적화 기법은 가중치 재사용을 크게 향상시켜 직접적으로 지연 감소와 에너지 효율성 향상에 기여한다.
  • DRAM 대역폭은 총 전력의 53.7%를 소비하는 가장 에너지 집약적인 구성 요소로, 주로 첫 번째 GCN 레이어에서 고용량 데이터 전송이 발생하기 때문이다.
  • 외부 메모리에 가중치를 저장하는 TPU+ 버전은 단지 11.3배의 성능 향상을 기록하여, GRIP에서 적용한 片내 가중치 저장 방식의 유용성을 입증한다.
  • 유사한 구성의 Graphicionado 기반 베이스라인은 가중치 대역폭 제약과 타일링 지원 부족으로 인해 단지 2.4배의 성능 향상에 그쳤다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.