Skip to main content
QUICK REVIEW

[论文解读] HERO: Heterogeneous Embedded Research Platform for Exploring RISC-V Manycore Accelerators on FPGA

Andreas Kurth, Pirmin Vogel|arXiv (Cornell University)|Dec 18, 2017
Parallel Computing and Optimization Techniques参考文献 24被引用 30
一句话总结

HERO 是一个开源的、基于 FPGA 的研究平台,将 ARM Cortex-A 多核主机处理器与可配置的、经过硅片验证的 RISC-V 多核加速器(PMCA)集成,用于异构片上系统(HESoC)研究。该平台通过支持 OpenMP 4.5 和共享虚拟内存的完整工具链,实现软硬件协同设计,提供自动化构建和运行时追踪功能,支持快速原型设计与验证。

ABSTRACT

Heterogeneous embedded systems on chip (HESoCs) co-integrate a standard host processor with programmable manycore accelerators (PMCAs) to combine general-purpose computing with domain-specific, efficient processing capabilities. While leading companies successfully advance their HESoC products, research lags behind due to the challenges of building a prototyping platform that unites an industry-standard host processor with an open research PMCA architecture. In this work we introduce HERO, an FPGA-based research platform that combines a PMCA composed of clusters of RISC-V cores, implemented as soft cores on an FPGA fabric, with a hard ARM Cortex-A multicore host processor. The PMCA architecture mapped on the FPGA is silicon-proven, scalable, configurable, and fully modifiable. HERO includes a complete software stack that consists of a heterogeneous cross-compilation toolchain with support for OpenMP accelerator programming, a Linux driver, and runtime libraries for both host and PMCA. HERO is designed to facilitate rapid exploration on all software and hardware layers: run-time behavior can be accurately analyzed by tracing events, and modifications can be validated through fully automated hard ware and software builds and executed tests. We demonstrate the usefulness of HERO by means of case studies from our research.

研究动机与目标

  • 解决缺乏可访问的、开源的研究平台的问题,这些平台能够将工业标准主机处理器与可修改、可扩展的多核加速器结合,用于 HESoC 研究。
  • 通过提供一个真实、经过硅片验证的 FPGA 原型,克服基于仿真研究的局限性,实现对系统级性能的准确评估。
  • 通过统一硬件与软件开发流程,结合自动化构建与运行时追踪,实现对异构架构的快速探索。
  • 支持实际、接近生产环境的编程模型,如 OpenMP 4.5 和共享虚拟内存(SVM),以简化真实世界应用程序与基准测试的移植工作。
  • 通过紧密模拟最终的硅片实现,促进硬件与软件的协同开发,避免对独立行为模型的需求。

提出的方法

  • 在 FPGA 布线结构上,将一个硬核 ARM Cortex-A 多核处理器与一个软核 RISC-V 多核加速器(PMCA)集成,采用基于集群的架构设计。
  • 使用 PULP RISC-V 模板实现 PMCA,该模板具备硅片验证、可扩展性及完全可配置性,可在 Xilinx Virtex-7 FPGA 上支持最多 64 个核心。
  • 开发完整的异构软件栈,包括交叉编译工具链、Linux 驱动程序、运行时库,以及对 OpenMP 4.5 和共享虚拟内存(SVM)的支持。
  • 提供硬件与软件的自动化构建与测试流水线,支持架构变更的快速迭代与验证。
  • 集成全面的事件追踪系统,以实现对运行时行为的精确分析,包括内存访问模式与处理器间通信开销。
  • 将 FPGA 作为原型目标,支持在多个实现目标之间进行探索,同时保持与硅片行为的高度一致。

实验结果

研究问题

  • RQ1如何设计一个研究平台,以实现对异构多核系统在软硬件协同开发背景下的全栈探索?
  • RQ2基于 FPGA 的平台,若配备真实、经过硅片验证的 PMCA 架构,能在多大程度上支持对系统级性能与编程模型的准确、高效评估?
  • RQ3具备 OpenMP 4.5 和共享虚拟内存支持的异构软件栈,是否能实现标准基准测试与真实世界应用程序向 RISC-V 多核加速器的无缝移植?
  • RQ4自动化硬件与软件构建及测试基础设施在加速 HESoC 探索中的研究迭代与验证方面,效果如何?
  • RQ5在评估异构系统中复杂交互行为时,使用真实 FPGA 原型相较于仿真或建模,具有哪些实际优势?

主要发现

  • HERO 通过将硬核 ARM 主机与可配置的、基于 FPGA 实现的 RISC-V PMCA 相结合,成功实现了对异构 RISC-V 多核系统的全栈研究。
  • 该平台在 Xilinx Virtex-7 FPGA 上支持最多 64 个 RISC-V 核心,超过类似 FPGA 配置下 OpenPiton 的 4 核限制。
  • 包含 OpenMP 4.5 和共享虚拟内存支持的异构软件栈,使得标准基准测试与真实世界应用程序可实现最小化移植工作量的直接移植。
  • 运行时事件追踪功能可实现对系统行为的精确分析,包括内存访问模式与通信开销,这对性能优化至关重要。
  • 自动化硬件与软件构建及测试流水线显著缩短了迭代时间,并提高了研究实验的可重现性。
  • 该平台将作为开源项目发布于 pulp-platform.org/hero,支持广泛社区采用,并具备面向未来研究的长期可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。