Skip to main content
QUICK REVIEW

[논문 리뷰] Gemmini: An Agile Systolic Array Generator Enabling Systematic Evaluations of Deep-Learning Architectures

Hasan Genc, Ameer Haj-Ali|arXiv (Cornell University)|2019. 11. 22.
Advanced Memory and Neural Computing참고 문헌 64인용 수 52
한 줄 요약

Gemmini는 딥 뉴럴 네트워크 추론을 위한 행렬 곱셈 커널에 최적화된 맞춤형 ASIC 가속기 생성을 위한 오픈소스로 유연한 시스톨릭 어레이 생성기입니다. RISC-V 및 Rocket Chip와 통합되어 있어 엣지 디바이스에서 16nm 및 22FFL 공정 기술을 사용할 때 호스트 프로세서 대비 2–3개 주기의 속도 향상을 달성할 수 있는 체계적인 설계 공간 탐색을 가능하게 합니다.

ABSTRACT

Advances in deep learning and neural networks have resulted in the rapid development of hardware accelerators that support them. A large majority of ASIC accelerators, however, target a single hardware design point to accelerate the main computational kernels of deep neural networks such as convolutions or matrix multiplication. On the other hand, the spectrum of use-cases for neural network accelerators, ranging from edge devices to cloud, presents a prime opportunity for agile hardware design and generator methodologies. We present Gemmini -- an open source and agile systolic array generator enabling systematic evaluations of deep-learning architectures. Gemmini generates a custom ASIC accelerator for matrix multiplication based on a systolic array architecture, complete with additional functions for neural network inference. Gemmini runs with the RISC-V ISA, and is integrated with the Rocket Chip System-on-Chip generator ecosystem, including Rocket in-order cores and BOOM out-of-order cores. Through an elaborate design space exploration case study, this work demonstrates the selection processes of various parameters for the use-case of inference on edge devices. Selected design points achieve two to three orders of magnitude speedup in deep neural network inference compared to the baseline execution on a host processor. Gemmini-generated accelerators were used in the fabrication of test systems-on-chip in TSMC 16nm and Intel 22FFL process technologies.

연구 동기 및 목표

  • 다양한 용도에 맞는 신경망 가속기용 민첩하고 재사용 가능한 하드웨어 생성 방법론의 부족을 해결하기 위해.
  • 엣지 기반 딥 러닝 추론을 위한 시스톨릭 어레이 구성에서의 설계 트레이드오���을 체계적으로 탐색하기 위해.
  • 시스톨릭 어레이 기반의 애플리케이션 특화 ASIC 가속기를 생성하기 위한 유연하고 오픈소스의 프레임워크를 제공하기 위해.
  • 순서어셈블리(로켓) 및 순서어셈블리 외부(BOOM) 코어를 포함한 RISC-V 생태계와 원활하게 통합하기 위해.
  • TSMC 16nm 및 인텔 22FFL 공정에서의 물리적 제작을 통해 프레임워크를 검증하기 위해.

제안 방법

  • Gemmini는 행렬 곱셈 커널에 최적화된 시스톨릭 어레이 아키텍처를 사용하여 맞춤형 ASIC 가속기를 생성합니다.
  • 순서어셈블리 및 순서어셈블리 외부 RISC-V 코어를 모두 지원하는 Rocket Chip SoC 생성기 생태계 내에서 생성기로 구현되어 있습니다.
  • 설계 공간 탐색을 위한 파rameterized 지원을 통해 어레이 차원, 데이터 형식, 메모리 계층을 조정할 수 있습니다.
  • 하드웨어 소프트웨어 공동 설계를 통합하여 신경망 추론 워크로드를 지원합니다.
  • 생성된 가속기는 16nm 및 22FFL 공정 기술을 사용하여 물리적 제작을 위한 컴파일 및 합성됩니다.
  • 엔드 투 엔드 추론 벤치마크를 통해 엣지 디바이스 워크로드에서 설계 포인트를 평가합니다.

실험 결과

연구 질문

  • RQ1어떻게 하면 다양한 딥 러닝 워크로드와 배포 플랫폼에 걸쳐 민첩하고 재사용 가능한 시스톨릭 어레이 생성기를 만들 수 있을까?
  • RQ2엣지 AI 추론에서 지연 시간과 에너지 소비를 최소화하기 위해 최적의 시스톨릭 어레이 구성은 무엇일까?
  • RQ3Gemmini가 생성한 가속기의 성능은 실제 엣지 워크로드에서 일반 목적의 프로세서와 비교해 어떻게 될까?
  • RQ4생성기 프레임워크에 의해 이끌리는 설계 공간 탐색은 맞춤형 가속기의 배포까지의 시간을 얼마나 줄일 수 있을까?
  • RQ5오픈소스 기반의 생성기 기반 가속기 설계는 수작업 최적화된 ASIC과 비교해 하드웨어 성능을 충분히 달성할 수 있을까?

주요 결과

  • Gemmini가 생성한 가속기는 호스트 프로세서에서의 기본 실행 대비 딥 뉴럴 네트워크 추론에서 2–3개 주기의 속도 향상을 달성합니다.
  • 프레임워크는 TSMC 16nm 및 인텔 22FFL 공정 기술을 사용하여 테스트 칩의 제작을 성공적으로 수행했습니다.
  • 체계적인 설계 공간 탐색을 통해 면적, 처리량, 에너지 효율성 간의 균형을 고려한 엣지 추론 최적 구성이 특정되었습니다.
  • RISC-V 및 Rocket Chip와의 통합을 통해 하드웨어 소프트웨어 공동 설계 및 배포가 원활하게 이루어졌습니다.
  • Gemmini의 오픈소스 성격 덕분에 재현 가능성과 커뮤니티 기반의 가속기 생성 파이프라인 확장이 가능해졌습니다.
  • 민첩하고 생성기 기반의 설계 방식이 추론 워크로드에 대해 수작업 최적화된 ASIC과 경쟁 가능한 가속기를 생성할 수 있음을 입증했습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.