[论文解读] Epiphany-V: A 1024 processor 64-bit RISC System-On-Chip
本论文提出 Epiphany-V,一款采用 16nm FinFET 工艺制造的 1024 核 64 位 RISC 系统级芯片,配备 64MB 片上 SRAM、三条 136 位宽的网状片上网络(NoC),以及 1024 个可编程 I/O 引脚。其处理器密度达到 1024 个处理器,相较业界最先进的芯片实现 80 倍的提升,设计成本降低至行业标准的 1/100,展示了在高性能计算(HPC)和嵌入式应用中实现能效突破与成本效益显著的多核架构设计。
This paper describes the design of a 1024-core processor chip in 16nm FinFet technology. The chip ("Epiphany-V") contains an array of 1024 64-bit RISC processors, 64MB of on-chip SRAM, three 136-bit wide mesh Networks-On-Chip, and 1024 programmable IO pins. The chip has taped out and is being manufactured by TSMC. This research was developed with funding from the Defense Advanced Research Projects Agency (DARPA). The views, opinions and/or findings expressed are those of the author and should not be interpreted as representing the official views or policies of the Department of Defense or the U.S. Government.
研究动机与目标
- 应对深度学习、自动驾驶车辆和认知无线电等应用中对能效高、性能强的计算日益增长的需求。
- 实现 75 GFLOPS/W 的处理效率,以支持在功耗受限环境中的高性能计算实用化部署。
- 降低先进制程 ASIC 设计的高昂成本,通常在 2000 万至 10 亿美元之间,使定制硅片更具可及性。
- 展示一种可扩展的、分布式共享内存的多核架构,支持跨代际的二进制兼容性。
- 通过大幅降低设计成本,实现 10–100 倍的能效节省,同时保持财务可行性。
提出的方法
- 采用扁平化、无缓存、分布式共享内存模型,为每个核心配备软件管理的寄存器堆内存,实现 1024 核 64 位 RISC 处理器阵列。
- 使用三条独立的 136 位宽 2D 网状片上网络(rmesh、cmesh、xmesh),分别用于读取、片上写入和片外写入流量,具有 1.5 个周期的包传输延迟。
- 对本地加载/存储操作采用强内存序,对远程访问采用弱内存序,以在性能与正确性之间取得平衡。
- 集成 2052 个独立电源域,实现细粒度电源管理,降低动态功耗。
- 设计模块化、可重用的 RTL 流程,并采用自动化 EDA 方法论,加速设计流程并减少人工工作量,使单名全职设计人员即可完成 45 亿晶体管芯片的设计。
- 支持为深度学习、通信和密码学工作负载定制指令集扩展,实现指令级优化。
实验结果
研究问题
- RQ1在 16nm FinFET 工艺下,1024 核 64 位 RISC 处理器能否实现 75 GFLOPS/W 的能效?
- RQ2通过简化、自动化的设计流程,先进制程 ASIC 的设计成本能降低到何种程度?
- RQ3与传统缓存层次结构相比,采用软件管理的寄存器堆内存的扁平化分布式共享内存模型在面积、功耗和性能方面表现如何?
- RQ4在采用网状 NoC 和 16nm 工艺的多核 SoC 中,处理器密度和内存密度的最大可实现值是多少?
- RQ5单名全职设计人员能否通过比行业标准高效 100 倍的设计流程完成 45 亿晶体管芯片的设计?
主要发现
- Epiphany-V 实现了 8.75 个节点/mm² 的处理器密度,相较性能最佳的同类芯片(P100 为 0.09 个节点/mm²)提升了 80 倍。
- 芯片实现了 0.54 MB RAM/mm² 的内存密度,比业界最先进的处理器(如 P100、KNL 和 Broadwell)高出 3.6 至 15.8 倍。
- 设计团队仅由 10 人组成,设计效率达到每小时 90 万个晶体管,RTL 到 GDS 流程速度达每小时 1.5 亿个晶体管——相比行业标准降低 100 倍设计成本。
- 在多芯片配置下,芯片支持最高达 10 亿个处理器和 1PB 的总内存容量,且与前代 Epiphany 产品保持二进制兼容。
- 芯片实现了 3800 万晶体管/mm² 的峰值硅效率,为当时报道的最高 HPC 芯片水平。
- Epiphany-V 的归一化 GFLOPS/mm² 达到 8.55,超过 P100(7.7)、KNL(5.27)和 Broadwell(2.85),表明其具备更优的面积效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。