Skip to main content
QUICK REVIEW

[論文レビュー] Gemmini: An Agile Systolic Array Generator Enabling Systematic Evaluations of Deep-Learning Architectures

Hasan Genc, Ameer Haj-Ali|arXiv (Cornell University)|Nov 22, 2019
Advanced Memory and Neural Computing参考文献 64被引用数 52
ひとこと要約

Gemminiは、深層ニューラルネットワーク推論用の行列乗算カーネルに最適化された、カスタムASICアクセラレータを生成するオープンソースで柔軟なスティリックアレイジェネレータである。RISC-VおよびRocket Chipと統合されており、エッジデバイスにおけるホストプロセッサ比で2〜3桁の高速化を達成する。16nmおよび22FFLプロセス技術を用いて実現された。

ABSTRACT

Advances in deep learning and neural networks have resulted in the rapid development of hardware accelerators that support them. A large majority of ASIC accelerators, however, target a single hardware design point to accelerate the main computational kernels of deep neural networks such as convolutions or matrix multiplication. On the other hand, the spectrum of use-cases for neural network accelerators, ranging from edge devices to cloud, presents a prime opportunity for agile hardware design and generator methodologies. We present Gemmini -- an open source and agile systolic array generator enabling systematic evaluations of deep-learning architectures. Gemmini generates a custom ASIC accelerator for matrix multiplication based on a systolic array architecture, complete with additional functions for neural network inference. Gemmini runs with the RISC-V ISA, and is integrated with the Rocket Chip System-on-Chip generator ecosystem, including Rocket in-order cores and BOOM out-of-order cores. Through an elaborate design space exploration case study, this work demonstrates the selection processes of various parameters for the use-case of inference on edge devices. Selected design points achieve two to three orders of magnitude speedup in deep neural network inference compared to the baseline execution on a host processor. Gemmini-generated accelerators were used in the fabrication of test systems-on-chip in TSMC 16nm and Intel 22FFL process technologies.

研究の動機と目的

  • 多様なユースケースを想定したニューラルネットワークアクセラレータ向けの、迅速かつ再利用可能なハードウェア生成手法の不足に対処すること。
  • エッジベースのディープラーニング推論を想定したスティリックアレイ構成における設計トレードオフを体系的に探索すること。
  • スティリックアレイに基づくアプリケーション固有ASICアクセラレータを生成するための柔軟でオープンソースのフレームワークを提供すること。
  • 順序実行(Rocket)および順序外実行(BOOM)のRISC-Vコアを含むRISC-Vエコシステムとシームレスに統合すること。
  • TSMC 16nmおよびIntel 22FFLプロセスにおける物理的プロトタイピングを通じてフレームワークを検証すること。

提案手法

  • Gemminiは、行列乗算カーネルに最適化されたスティリックアレイアーキテクチャを用いて、カスタムASICアクセラレータを生成する。
  • Rocket Chip SoCジェネレータエコシステム内にジェネレータとして実装されており、順序実行および順序外実行のRISC-Vコアをサポートする。
  • パラメータ化された設計空間探索をサポートしており、アレイの次元、データ型、メモリ階層の調整が可能である。
  • ハードウェアとソフトウェアの共同設計を統合しており、ニューラルネットワーク推論ワークロードのサポートを含む。
  • 生成されたアクセラレータは、16nmおよび22FFLプロセス技術における物理的プロダクションを想定してコンパイルおよび合成される。
  • 設計ポイントは、エッジデバイスワークロードにおけるエンドツーエンドの推論ベンチマークを通じて評価される。

実験結果

リサーチクエスチョン

  • RQ1どのようにしてスティリックアレイジェネレータを、多様なディープラーニングワークロードおよびデプロイメントプラットフォームに応じて迅速かつ再利用可能にすることができるか?
  • RQ2エッジAI推論において遅延とエネルギー消費量を最小限に抑える最適なスティリックアレイ構成は何か?
  • RQ3Gemminiが生成するアクセラレータの性能は、実世界のエッジワークロードにおける一般向けプロセッサと比べてどの程度の差があるか?
  • RQ4ジェネレータフレームワークに従った設計空間探索によって、カスタムアクセラレータのデプロイまでの時間はどの程度短縮できるか?
  • RQ5オープンソースでジェネレータベースのアクセラレータ設計は、手作業で最適化されたASICと同等のハードウェア性能を達成できるか?

主な発見

  • Gemminiが生成するアクセラレータは、ホストプロセッサ上で実行する基準実行と比較して、深層ニューラルネットワーク推論で2〜3桁の高速化を達成した。
  • フレームワークは、TSMC 16nmおよびIntel 22FFLプロセス技術におけるテストチップのプロトタイピングを成功裏に実現した。
  • 体系的な設計空間探索により、面積、スループット、エネルギー効率のバランスを最適化したエッジ推論向けの最適構成が同定された。
  • RISC-VおよびRocket Chipとの統合により、シームレスなハードウェア・ソフトウェア共同設計とデプロイメントが可能になった。
  • Gemminiのオープンソース性により、再現性が確保され、コミュニティ主導のアクセラレータ生成パイプラインの拡張が促進された。
  • 迅速でジェネレータベースの設計手法が、推論ワークロードにおいて手作業最適化されたASICと競合可能なアクセラレータを生成できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。