[論文レビュー] HERO: Heterogeneous Embedded Research Platform for Exploring RISC-V Manycore Accelerators on FPGA
HERO は、ARM Cortex-A マルチコアプロセッサと、設定可能でシリコン実証済みの RISC-V マルチコアアクセラレータ(PMCA)を統合したオープンソースで FPGA ベースの研究プラットフォームであり、異種システムオンチップ(HESoC)の探求を目的としている。OpenMP 4.5 と共有仮想メモリをサポートする包括的なツールチェーンにより、フルスタックのハードウェア・ソフトウェア共同設計が可能であり、自動ビルドとランタイムトレースにより、迅速なプロトタイピングと検証が実現される。
Heterogeneous embedded systems on chip (HESoCs) co-integrate a standard host processor with programmable manycore accelerators (PMCAs) to combine general-purpose computing with domain-specific, efficient processing capabilities. While leading companies successfully advance their HESoC products, research lags behind due to the challenges of building a prototyping platform that unites an industry-standard host processor with an open research PMCA architecture. In this work we introduce HERO, an FPGA-based research platform that combines a PMCA composed of clusters of RISC-V cores, implemented as soft cores on an FPGA fabric, with a hard ARM Cortex-A multicore host processor. The PMCA architecture mapped on the FPGA is silicon-proven, scalable, configurable, and fully modifiable. HERO includes a complete software stack that consists of a heterogeneous cross-compilation toolchain with support for OpenMP accelerator programming, a Linux driver, and runtime libraries for both host and PMCA. HERO is designed to facilitate rapid exploration on all software and hardware layers: run-time behavior can be accurately analyzed by tracing events, and modifications can be validated through fully automated hard ware and software builds and executed tests. We demonstrate the usefulness of HERO by means of case studies from our research.
研究の動機と目的
- 業界標準のホストプロセッサと、変更可能でスケーラブルなマルチコアアクセラレータを統合した、アクセス可能でオープンな研究プラットフォームの不足を補う。
- シミュレーションベースの研究の制限を克服し、正確なシステムレベル評価を可能にする、実際のシリコン実証済みの FPGA プロトタイプを提供する。
- 自動ビルドとランタイムトレースを統合することで、ハードウェアとソフトウェアの両方を統合的に開発し、異種アーキテクチャの迅速な探求を可能にする。
- OpenMP 4.5 や共有仮想メモリ(SVM)といった実用的で生産環境に近いプログラミングモデルをサポートし、実世界のアプリケーションやベンチマークの移植を簡素化する。
- 最終的なシリコン実装を密接に模倣することで、ハードウェアとソフトウェアの共同開発を促進し、別個の動作モデルの必要性を回避する。
提案手法
- FPGA ファブリック上にクラスタ型アーキテクチャとして実装されたソフトウェア RISC-V マルチコアアクセラレータ(PMCA)と、ハードな ARM Cortex-A マルチコアプロセッサを統合する。
- PULP RISC-V テンプレートを用いて PMCA を実装し、これはシリコン実証済みでスケーラブルかつ完全に設定可能であり、Xilinx Virtex-7 FPGA 上で最大 64 コアまで対応可能である。
- クロスコンパイルツールチェーン、Linux ドライバ、ランタイムライブラリを含む包括的な異種ソフトウェアスタックを構築し、OpenMP 4.5 と共有仮想メモリ(SVM)をサポートする。
- ハードウェアおよびソフトウェアの両方の自動ビルドおよびテストパイプラインを提供し、アーキテクチャ的変更の迅速な反復と検証を可能にする。
- ランタイム動作の正確な分析を可能にする包括的なイベントトレーシングシステムを統合し、メモリアクセスパターンやプロセッサ間通信なども含む。
- FPGA をプロトタイピングのターゲットとして使用することで、複数の実装ターゲットへの探求を可能にしつつ、シリコン動作と高い整合性を維持する。
実験結果
リサーチクエスチョン
- RQ1ハードウェアとソフトウェアの共同開発を可能にするフルスタックの異種マルチコアシステムの探求を可能にする研究プラットフォームは、どのように設計できるか?
- RQ2実際のシリコン実証済み PMCA アーキテクチャを備えた FPGA ベースのプラットフォームは、システムレベルのパフォーマンスとプログラミングモデルの正確で効率的な評価をどの程度可能にするか?
- RQ3OpenMP 4.5 と共有仮想メモリを備えた異種ソフトウェアスタックは、標準ベンチマークや実世界のアプリケーションを RISC-V マルチコアアクセラレータにシームレスに移植可能か?
- RQ4自動化されたハードウェアおよびソフトウェアのビルド・テストインfraストラクチャは、HESoC 探求における研究の反復と検証をどの程度高速化できるか?
- RQ5複雑な相互作用を評価する際、シミュレーションやモデル化と比較して、実際の FPGA プロトタイプを使用することの実用的利点は何か?
主な発見
- HERO は、ハードな ARM ホストと、設定可能な FPGA 実装された RISC-V PMCA を統合することで、異種 RISC-V マルチコアシステムにおけるフルスタック研究を成功裏に実現した。
- Xilinx Virtex-7 FPGA 上で最大 64 個の RISC-V コアをサポートし、同様の FPGA 環境下で 4 コア制限の OpenPiton を上回る。
- OpenMP 4.5 と共有仮想メモリ(SVM)を備えた異種ソフトウェアスタックのおかげで、標準ベンチマークや実世界のアプリケーションを最小限の移植作業で直接移行可能である。
- ランタイムイベントトレースにより、メモリアクセスパターンや通信オーバーヘッドを含むシステム動作の正確な分析が可能となり、パフォーマンス最適化に不可欠である。
- 自動化されたハードウェアおよびソフトウェアのビルド・テストパイプラインは、研究実験における反復時間の大幅短縮と再現性の向上を実現した。
- プラットフォームは pulp-platform.org/hero にてオープンソースとしてリリースされる設計となっており、広範なコミュニティの採用と、今後の研究に向けた長期的拡張性を促進する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。