QUICK REVIEW

[論文レビュー] Epiphany-V: A 1024 processor 64-bit RISC System-On-Chip

Andreas Olofsson|arXiv (Cornell University)|Oct 6, 2016

Engineering and Test Systems参考文献 2被引用数 53

ひとこと要約

本論文では、16nm FinFETプロセスで製造された1024コア64ビットRISCシステムオンチップ（SoC）であるEpiphany-Vを提示する。このSoCは、64MBのオンチップSRAM、3つの136ビット幅メッシュ型ネットワーク・オンチップ（NoC）、および1024本のプログラマブルI/Oピンを備えている。1024プロセッサ密度を達成し、業界最高水準のチップと比較して80倍高いプロセッサ密度を実現した。設計コストは業界平均の1/100にまで削減され、HPCおよび組み込み応用分野におけるエネルギー効率とコスト効率に優れた多数コアアーキテクチャの実現に成功した。

ABSTRACT

This paper describes the design of a 1024-core processor chip in 16nm FinFet technology. The chip ("Epiphany-V") contains an array of 1024 64-bit RISC processors, 64MB of on-chip SRAM, three 136-bit wide mesh Networks-On-Chip, and 1024 programmable IO pins. The chip has taped out and is being manufactured by TSMC. This research was developed with funding from the Defense Advanced Research Projects Agency (DARPA). The views, opinions and/or findings expressed are those of the author and should not be interpreted as representing the official views or policies of the Department of Defense or the U.S. Government.

研究の動機と目的

ディープラーニング、自動運転車両、認知ラジオなどの分野におけるエネルギー効率が高く、高性能なコンピューティングの需要増加に対応する。
電力制約のある環境での実用的導入を可能にするために、75 GFLOPS/Wのプロセッシング効率を達成する。
通常2000万ドルから10億ドルの範囲にのぼる先端ノードASIC設計の高コストを低減し、カスタムシリコンの実現可能性を高める。
世代間でバイナリ互換性を保証するスケーラブルかつ分散型共有メモリの多数コアアーキテクチャを実証する。
設計コストを著しく削減することで、10～100倍のエネルギー効率向上を実現しながらも、財務的持続可能性を維持するための極限のシリコンカスタマイズを可能にする。

提案手法

各コアにソフトウェア管理のスクラッチパッドメモリを備えた、フラットでキャッシュレス、分散型共有メモリモデルを採用した1024コア64ビットRISCプロセッサアレイを実装する。
リード、オンチップ書き込み、オフチップ書き込みトラフィックの各々に特化した3つの独立した136ビット幅2次元メッシュ型ネットワーク・オンチップ（rmesh, cmesh, xmesh）を採用し、1.5サイクルのパケット転送遅延を実現する。
ローカルのロード/ストアには強力なメモリ順序付けを、リモート転送には弱い順序付けを適用することで、パフォーマンスと正しさのバランスを図る。
2052の独立した電源ドメインを統合し、細粒度の電力管理を実現し、動的消費電力を低減する。
自動化されたEDA手法を備えたモジュラーかつ再利用可能なRTLフローを設計し、設計を加速し人的労働を削減する。これにより、1人のフルタイム設計者でも45億トランジスタのチップを完成できる。
ディープラーニング、通信、暗号化処理のワークロード最適化のため、カスタム命令セット拡張をサポートする。

実験結果

リサーチクエスチョン

RQ116nm FinFETプロセスを用いた1024コア64ビットRISCプロセッサは、75 GFLOPS/Wのエネルギー効率を達成可能か？
RQ2簡素化され自動化された設計フローを用いることで、先端ノードASICの設計コストはどの程度低減可能か？
RQ3ソフトウェア管理のスクラッチパッドメモリを備えたフラットで分散型共有メモリモデルは、従来のキャッシュ階層と比較して、面積、消費電力、パフォーマンスの面でどのように差がでるか？
RQ4メッシュ型NoCと16nmプロセスを用いた多数コアSoCにおいて、最大でどの程度のプロセッサ密度とメモリ密度が達成可能か？
RQ5設計フローが業界標準の100倍効率的である場合、1人のフルタイム設計者が45億トランジスタのチップを完成可能か？

主な発見

Epiphany-Vは、8.75ノード/mm²のプロセッサ密度を達成し、次に優れたチップ（P100：0.09ノード/mm²）と比較して80倍の向上を示した。
チップは0.54MB RAM/mm²のメモリ密度を達成し、P100、KNL、Broadwellといった最先端プロセッサと比較して3.6～15.8倍高い。
設計はわずか10人のチームで完了し、設計効率は1時間あたり90万トランジスタ、RTLからGDSへのフローは1時間あたり1億5000万トランジスタを達成した。これは業界平均と比較して100倍のコスト削減を示した。
マルチチップ構成では最大10億プロセッサと1ペタバイトの総メモリをサポートし、以前のEpiphany世代とバイナリ互換性を保証する。
ピークシリコン効率は3800万トランジスタ/mm²に達し、当時報告されたHPCチップの中で最高の値であった。
Epiphany-Vの正規化GFLOPS/mm²は8.55であり、P100（7.7）、KNL（5.27）、Broadwell（2.85）を上回り、面積効率の優位性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。