QUICK REVIEW

[논문 리뷰] Gemmini: An Agile Systolic Array Generator Enabling Systematic Evaluations of Deep-Learning Architectures

Hasan Genc, Ameer Haj-Ali|arXiv (Cornell University)|2019. 11. 22.

Advanced Memory and Neural Computing참고 문헌 64인용 수 52

한 줄 요약

Gemmini는 딥 뉴럴 네트워크 추론을 위한 행렬 곱셈 커널에 최적화된 맞춤형 ASIC 가속기 생성을 위한 오픈소스로 유연한 시스톨릭 어레이 생성기입니다. RISC-V 및 Rocket Chip와 통합되어 있어 엣지 디바이스에서 16nm 및 22FFL 공정 기술을 사용할 때 호스트 프로세서 대비 2–3개 주기의 속도 향상을 달성할 수 있는 체계적인 설계 공간 탐색을 가능하게 합니다.

ABSTRACT

Advances in deep learning and neural networks have resulted in the rapid development of hardware accelerators that support them. A large majority of ASIC accelerators, however, target a single hardware design point to accelerate the main computational kernels of deep neural networks such as convolutions or matrix multiplication. On the other hand, the spectrum of use-cases for neural network accelerators, ranging from edge devices to cloud, presents a prime opportunity for agile hardware design and generator methodologies. We present Gemmini -- an open source and agile systolic array generator enabling systematic evaluations of deep-learning architectures. Gemmini generates a custom ASIC accelerator for matrix multiplication based on a systolic array architecture, complete with additional functions for neural network inference. Gemmini runs with the RISC-V ISA, and is integrated with the Rocket Chip System-on-Chip generator ecosystem, including Rocket in-order cores and BOOM out-of-order cores. Through an elaborate design space exploration case study, this work demonstrates the selection processes of various parameters for the use-case of inference on edge devices. Selected design points achieve two to three orders of magnitude speedup in deep neural network inference compared to the baseline execution on a host processor. Gemmini-generated accelerators were used in the fabrication of test systems-on-chip in TSMC 16nm and Intel 22FFL process technologies.

연구 동기 및 목표

다양한 용도에 맞는 신경망 가속기용 민첩하고 재사용 가능한 하드웨어 생성 방법론의 부족을 해결하기 위해.
엣지 기반 딥 러닝 추론을 위한 시스톨릭 어레이 구성에서의 설계 트레이드오��을 체계적으로 탐색하기 위해.
시스톨릭 어레이 기반의 애플리케이션 특화 ASIC 가속기를 생성하기 위한 유연하고 오픈소스의 프레임워크를 제공하기 위해.
순서어셈블리(로켓) 및 순서어셈블리 외부(BOOM) 코어를 포함한 RISC-V 생태계와 원활하게 통합하기 위해.
TSMC 16nm 및 인텔 22FFL 공정에서의 물리적 제작을 통해 프레임워크를 검증하기 위해.

제안 방법

Gemmini는 행렬 곱셈 커널에 최적화된 시스톨릭 어레이 아키텍처를 사용하여 맞춤형 ASIC 가속기를 생성합니다.
순서어셈블리 및 순서어셈블리 외부 RISC-V 코어를 모두 지원하는 Rocket Chip SoC 생성기 생태계 내에서 생성기로 구현되어 있습니다.
설계 공간 탐색을 위한 파rameterized 지원을 통해 어레이 차원, 데이터 형식, 메모리 계층을 조정할 수 있습니다.
하드웨어 소프트웨어 공동 설계를 통합하여 신경망 추론 워크로드를 지원합니다.
생성된 가속기는 16nm 및 22FFL 공정 기술을 사용하여 물리적 제작을 위한 컴파일 및 합성됩니다.
엔드 투 엔드 추론 벤치마크를 통해 엣지 디바이스 워크로드에서 설계 포인트를 평가합니다.

실험 결과

연구 질문

RQ1어떻게 하면 다양한 딥 러닝 워크로드와 배포 플랫폼에 걸쳐 민첩하고 재사용 가능한 시스톨릭 어레이 생성기를 만들 수 있을까?
RQ2엣지 AI 추론에서 지연 시간과 에너지 소비를 최소화하기 위해 최적의 시스톨릭 어레이 구성은 무엇일까?
RQ3Gemmini가 생성한 가속기의 성능은 실제 엣지 워크로드에서 일반 목적의 프로세서와 비교해 어떻게 될까?
RQ4생성기 프레임워크에 의해 이끌리는 설계 공간 탐색은 맞춤형 가속기의 배포까지의 시간을 얼마나 줄일 수 있을까?
RQ5오픈소스 기반의 생성기 기반 가속기 설계는 수작업 최적화된 ASIC과 비교해 하드웨어 성능을 충분히 달성할 수 있을까?

주요 결과

Gemmini가 생성한 가속기는 호스트 프로세서에서의 기본 실행 대비 딥 뉴럴 네트워크 추론에서 2–3개 주기의 속도 향상을 달성합니다.
프레임워크는 TSMC 16nm 및 인텔 22FFL 공정 기술을 사용하여 테스트 칩의 제작을 성공적으로 수행했습니다.
체계적인 설계 공간 탐색을 통해 면적, 처리량, 에너지 효율성 간의 균형을 고려한 엣지 추론 최적 구성이 특정되었습니다.
RISC-V 및 Rocket Chip와의 통합을 통해 하드웨어 소프트웨어 공동 설계 및 배포가 원활하게 이루어졌습니다.
Gemmini의 오픈소스 성격 덕분에 재현 가능성과 커뮤니티 기반의 가속기 생성 파이프라인 확장이 가능해졌습니다.
민첩하고 생성기 기반의 설계 방식이 추론 워크로드에 대해 수작업 최적화된 ASIC과 경쟁 가능한 가속기를 생성할 수 있음을 입증했습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.