Skip to main content
QUICK REVIEW

[论文解读] Energy Efficiency of Many-Soft-Core Processors

David Castells‐Rufas, Albert Saà-Garriga|arXiv (Cornell University)|Jan 1, 2016
Parallel Computing and Optimization Techniques参考文献 19被引用 4
一句话总结

本文提出了一种可重构的多软核FPGA处理器架构,通过结合定制硬件加速与通用多核处理模型,实现了极高的能效。通过优化软核处理器的定制指令并扩展至8个核心,该系统实现了1,623.39 MOPS/W的能效,比超低功耗CPU(i7-5500U)高出58倍,比高性能GPGPU(GK110-400)高出124倍,表明基于软核的系统在保持可编程性的同时,其能效可超越专用加速器。

ABSTRACT

The growing capacity of integration allows to instantiate hundreds of soft-core processors in a single FPGA to create a reconfigurable multiprocessing system. Lately, FPGAs have been proven to give a higher energy efficiency than alternative platforms like CPUs and GPGPUs for certain workloads and are increasingly used in data-centers. In this paper we investigate whether many-soft-core processors can achieve similar levels of energy efficiency while providing a general purpose environment, more easily programmed, and allowing to run other applications without reconfiguring the device. With a simple application example we are able to create a reconfigurable multiprocessing system achieving an energy efficiency 58 times higher than a recent ultra-low-power processor and 124 times higher than a recent high performance GPGPU.

研究动机与目标

  • 评估多软核FPGA系统是否能在保持通用可编程性的同时,实现与专用加速器相当的高能效。
  • 研究使用软核处理器与硬件加速或GPGPU平台相比的能效权衡。
  • 证明对软核进行硬件增强可显著提升可重构、细粒度并行环境下的性能与能效。
  • 探索FPGA上软核多核处理在通用工作负载下的可扩展性与效率极限。

提出的方法

  • 作者在FPGA上实现了可重构的多软核系统,采用NIOSII软核处理器,并通过添加定制指令和流水线逻辑以提升指令级并行性。
  • 在素数检测基准测试中采用循环级并行化策略,评估多核环境下的线程级并行性能。
  • 系统在EP4SGX530 FPGA上综合与部署,通过测量不同线程数和设计配置下的性能与功耗进行评估。
  • 能效通过每秒操作数每瓦(MOPS/W)计算,基于硬件运行的动态功耗测量与执行时间。
  • 该方法利用OpenMP风格线程与FPGA可重构性,实现对标准并行编程模型的复用。
  • 与商用i7-5500U CPU和NVIDIA GK110-400 GPGPU进行了对比基准测试,使用相同的应用内核。

实验结果

研究问题

  • RQ1多软核FPGA系统是否能在保持通用性与可重构性的同时,实现与GPGPU等专用加速器相当的能效?
  • RQ2随着核心数量增加与硬件增强的引入,基于软核的多核处理系统的能效如何变化?
  • RQ3与硬件优化或高层次综合(HLS)平台相比,使用软核处理器在性能与能效之间存在怎样的权衡?
  • RQ4在多处理器环境中,定制指令与流水线技术能在多大程度上提升软核处理器的能效?
  • RQ5在通用工作负载下,可重构软核系统是否能在能效方面超越高性能CPU?

主要发现

  • 8核软核FPGA系统实现了1,623.39 MOPS/W的能效,是i7-5500U峰值能效27.7 MOPS/W的58倍。
  • 同一系统能效比NVIDIA GK110-400 GPGPU高出124倍,后者的能效仅为13.082 MOPS/W。
  • 软核系统的能效随线程数增加而提升,在8个线程时达到峰值,表现出近乎理想的加速比。
  • 在单核模式下,添加定制指令与流水线逻辑使能效从基线的2.45 MOPS/W提升至611.27 MOPS/W。
  • 尽管互连与控制逻辑增加了功耗开销,多核系统仍保持高能效,因性能增益远超功耗成本。
  • 结果表明,软核系统在保持完全可编程性与可重构性的同时,其能效可超越通用CPU与GPGPU。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。