[论文解读] Energy Efficiency of Many-Soft-Core Processors
本文提出了一种可重构的多软核FPGA处理器架构,通过结合定制硬件加速与通用多核处理模型,实现了极高的能效。通过优化软核处理器的定制指令并扩展至8个核心,该系统实现了1,623.39 MOPS/W的能效,比超低功耗CPU(i7-5500U)高出58倍,比高性能GPGPU(GK110-400)高出124倍,表明基于软核的系统在保持可编程性的同时,其能效可超越专用加速器。
The growing capacity of integration allows to instantiate hundreds of soft-core processors in a single FPGA to create a reconfigurable multiprocessing system. Lately, FPGAs have been proven to give a higher energy efficiency than alternative platforms like CPUs and GPGPUs for certain workloads and are increasingly used in data-centers. In this paper we investigate whether many-soft-core processors can achieve similar levels of energy efficiency while providing a general purpose environment, more easily programmed, and allowing to run other applications without reconfiguring the device. With a simple application example we are able to create a reconfigurable multiprocessing system achieving an energy efficiency 58 times higher than a recent ultra-low-power processor and 124 times higher than a recent high performance GPGPU.
研究动机与目标
- 评估多软核FPGA系统是否能在保持通用可编程性的同时,实现与专用加速器相当的高能效。
- 研究使用软核处理器与硬件加速或GPGPU平台相比的能效权衡。
- 证明对软核进行硬件增强可显著提升可重构、细粒度并行环境下的性能与能效。
- 探索FPGA上软核多核处理在通用工作负载下的可扩展性与效率极限。
提出的方法
- 作者在FPGA上实现了可重构的多软核系统,采用NIOSII软核处理器,并通过添加定制指令和流水线逻辑以提升指令级并行性。
- 在素数检测基准测试中采用循环级并行化策略,评估多核环境下的线程级并行性能。
- 系统在EP4SGX530 FPGA上综合与部署,通过测量不同线程数和设计配置下的性能与功耗进行评估。
- 能效通过每秒操作数每瓦(MOPS/W)计算,基于硬件运行的动态功耗测量与执行时间。
- 该方法利用OpenMP风格线程与FPGA可重构性,实现对标准并行编程模型的复用。
- 与商用i7-5500U CPU和NVIDIA GK110-400 GPGPU进行了对比基准测试,使用相同的应用内核。
实验结果
研究问题
- RQ1多软核FPGA系统是否能在保持通用性与可重构性的同时,实现与GPGPU等专用加速器相当的能效?
- RQ2随着核心数量增加与硬件增强的引入,基于软核的多核处理系统的能效如何变化?
- RQ3与硬件优化或高层次综合(HLS)平台相比,使用软核处理器在性能与能效之间存在怎样的权衡?
- RQ4在多处理器环境中,定制指令与流水线技术能在多大程度上提升软核处理器的能效?
- RQ5在通用工作负载下,可重构软核系统是否能在能效方面超越高性能CPU?
主要发现
- 8核软核FPGA系统实现了1,623.39 MOPS/W的能效,是i7-5500U峰值能效27.7 MOPS/W的58倍。
- 同一系统能效比NVIDIA GK110-400 GPGPU高出124倍,后者的能效仅为13.082 MOPS/W。
- 软核系统的能效随线程数增加而提升,在8个线程时达到峰值,表现出近乎理想的加速比。
- 在单核模式下,添加定制指令与流水线逻辑使能效从基线的2.45 MOPS/W提升至611.27 MOPS/W。
- 尽管互连与控制逻辑增加了功耗开销,多核系统仍保持高能效,因性能增益远超功耗成本。
- 结果表明,软核系统在保持完全可编程性与可重构性的同时,其能效可超越通用CPU与GPGPU。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。