[论文解读] Gemmini: An Agile Systolic Array Generator Enabling Systematic Evaluations of Deep-Learning Architectures
Gemmini 是一个开源的、灵活的脉动阵列生成器,可为深度神经网络推理中的矩阵乘法生成定制的 ASIC 加速器。与 RISC-V 和 Rocket Chip 集成后,它支持系统化的设计空间探索,在 16nm 和 22FFL 工艺技术下,使边缘设备上的主机处理器实现 2–3 个数量级的速度提升。
Advances in deep learning and neural networks have resulted in the rapid development of hardware accelerators that support them. A large majority of ASIC accelerators, however, target a single hardware design point to accelerate the main computational kernels of deep neural networks such as convolutions or matrix multiplication. On the other hand, the spectrum of use-cases for neural network accelerators, ranging from edge devices to cloud, presents a prime opportunity for agile hardware design and generator methodologies. We present Gemmini -- an open source and agile systolic array generator enabling systematic evaluations of deep-learning architectures. Gemmini generates a custom ASIC accelerator for matrix multiplication based on a systolic array architecture, complete with additional functions for neural network inference. Gemmini runs with the RISC-V ISA, and is integrated with the Rocket Chip System-on-Chip generator ecosystem, including Rocket in-order cores and BOOM out-of-order cores. Through an elaborate design space exploration case study, this work demonstrates the selection processes of various parameters for the use-case of inference on edge devices. Selected design points achieve two to three orders of magnitude speedup in deep neural network inference compared to the baseline execution on a host processor. Gemmini-generated accelerators were used in the fabrication of test systems-on-chip in TSMC 16nm and Intel 22FFL process technologies.
研究动机与目标
- 解决针对多样化应用场景的神经网络加速器缺乏敏捷、可重用硬件生成方法的问题。
- 实现对面向边缘端深度学习推理的脉动阵列配置中设计权衡的系统化探索。
- 提供一个灵活、开源的框架,基于脉动阵列生成面向特定应用的 ASIC 加速器。
- 与 RISC-V 生态系统无缝集成,包括有序(Rocket)和无序(BOOM)核心。
- 通过在台积电 16nm 和英特尔 22FFL 工艺中进行物理制造来验证该框架。
提出的方法
- Gemmini 使用针对矩阵乘法内核优化的脉动阵列架构,生成定制的 ASIC 加速器。
- 它作为 Rocket Chip SoC 生成器生态系统中的生成器实现,支持有序和无序的 RISC-V 核心。
- 该框架支持参数化的设计空间探索,可调节阵列尺寸、数据类型和内存层次结构。
- 它集成软硬件协同设计,包括对神经网络推理工作负载的支持。
- 生成的加速器已针对 16nm 和 22FFL 工艺技术进行编译和综合,以实现物理制造。
- 通过在边缘设备工作负载上运行端到端的推理基准测试,对设计点进行评估。
实验结果
研究问题
- RQ1如何使脉动阵列生成器在多样化的深度学习工作负载和部署平台中具备敏捷性和可重用性?
- RQ2在边缘 AI 推理中,如何确定最小化延迟和能耗的最优脉动阵列配置?
- RQ3Gemmini 生成的加速器在真实边缘工作负载中的性能与通用处理器相比如何?
- RQ4由生成器框架引导的设计空间探索在多大程度上可缩短定制加速器的部署时间?
- RQ5开源的、基于生成器的加速器设计能否实现与手工优化 ASIC 相当的硬件性能?
主要发现
- 与主机处理器上的基线执行相比,Gemmini 生成的加速器在深度神经网络推理中实现了 2–3 个数量级的速度提升。
- 该框架成功实现了在台积电 16nm 和英特尔 22FFL 工艺技术下的测试芯片制造。
- 系统化的设计空间探索识别出适用于边缘推理的最优配置,在面积、吞吐量和能效之间实现良好平衡。
- 与 RISC-V 和 Rocket Chip 的集成实现了硬件与软件的无缝协同设计和部署。
- Gemmini 的开源特性促进了可复现性,并支持社区对加速器生成流程的持续扩展。
- 该方法表明,敏捷的、基于生成器的设计可产生在推理工作负载中与手工优化 ASIC 竞争的加速器。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。