QUICK REVIEW

[論文レビュー] Refresh Triggered Computation: Improving the Energy Efficiency of Convolutional Neural Network Accelerators

Syed M. A. H. Jafri, Hasan Hassan|arXiv (Cornell University)|Oct 15, 2019

Advanced Neural Network Applications参考文献 111被引用数 5

ひとこと要約

本論文では、アプリケーションのメモリアクセスをリフレッシュ操作と同期させ、空のDRAM領域へのリフレッシュを排除することで、CNNアクセラレータにおけるDRAMリフレッシュエネルギーを低減するソフトウェア/ハードウェア共同設計手法であるRefresh Triggered Computation（RTC）を提案する。最も能動的なRTCバージョンでは、16GBのDRAMチップでわずか0.18%の面積オーバーヘッドで平均的なDRAMエネルギーを61.3%まで削減する。

ABSTRACT

To employ a Convolutional Neural Network (CNN) in an energy-constrained embedded system, it is critical for the CNN implementation to be highly energy efficient. Many recent studies propose CNN accelerator architectures with custom computation units that try to improve energy-efficiency and performance of CNNs by minimizing data transfers from DRAM-based main memory. However, in these architectures, DRAM is still responsible for half of the overall energy consumption of the system, on average. A key factor of the high energy consumption of DRAM is the refresh overhead, which is estimated to consume 40% of the total DRAM energy. In this paper, we propose a new mechanism, Refresh Triggered Computation (RTC), that exploits the memory access patterns of CNN applications to reduce the number of refresh operations. We propose three RTC designs (min-RTC, mid-RTC, and full-RTC), each of which requires a different level of aggressiveness in terms of customization to the DRAM subsystem. All of our designs have small overhead. Even the most aggressive RTC design (i.e., full-RTC) imposes an area overhead of only 0.18% in a 16 Gb DRAM chip and can have less overhead for denser chips. Our experimental evaluation on six well-known CNNs show that RTC reduces average DRAM energy consumption by 24.4% and 61.3%, for the least aggressive and the most aggressive RTC implementations, respectively. Besides CNNs, we also evaluate our RTC mechanism on three workloads from other domains. We show that RTC saves 31.9% and 16.9% DRAM energy for Face Recognition and Bayesian Confidence Propagation Neural Network (BCPNN), respectively. We believe RTC can be applied to other applications whose memory access patterns remain predictable for a sufficiently long time.

研究の動機と目的

エネルギー制約のあるCNNアクセラレータにおけるDRAMリフレッシュ操作の高エネルギー消費を是正すること。
データ移動最適化にもかかわらず依然として主要なボトル neck である、DRAMエネルギーの40%を占めるリフレッシュオーバーヘッドを低減すること。
CNNにおける予測可能で繰り返し発生するメモリアクセスパターンを活用し、余分なリフレッシュ操作を排除すること。
さまざまなワークロードに適用可能なスケーラブルで低オーバーヘッドのメカニズムを設計すること。

提案手法

アプリケーションの読み取り/書き込みアクセスが自然にDRAMセルをリフレッシュすることを利用し、リフレッシュ操作をスキップするRefresh Triggered Transfer（RTT）を導入すること。
割り当てられていない、またはデータを含まないDRAM行のリフレッシュを無効化するPartial Array Auto-Refresh（PAAR）を実装すること。
性能、エネルギー効率、ハードウェアオーバーヘッドのトレードオフを提供する3つのRTCバージョン—min-RTC、mid-RTC、full-RTC—を提案すること。
既存システムとの互換性を確保するため、最小限の変更でメモリコントローラーおよびDRAMチップにRTCを統合すること。
DRAMリフレッシュを、アプリケーションアクセスがリフレッシュ間隔と一致する場合にのみトリガーするハイブリッドアプローチを採用し、余分なリフレッシュサイクルを削減すること。
一般化の妥当性を検証するため、6つの代表的なCNNと3つの非CNNワークロードでRTCを評価すること。

実験結果

リサーチクエスチョン

RQ1CNNにおけるアプリケーションメモリアクセスパターンを活用することで、DRAMリフレッシュ操作の回数を削減できるか？
RQ2割り当てられていない、または非アクティブなDRAM領域へのリフレッシュを排除することで、DRAMエネルギーをどの程度削減できるか？
RQ3RTCはどれほど面積およびパフォーマンスオーバーヘッドを発生させ、高エネルギー効率を維持しながら最小限に抑えられるか？
RQ4CNNに限らず、予測可能なメモリアクセスパターンを持つ他のワークロードにもRTCを一般化できるか？

主な発見

最も能動的なバージョン（full-RTC）は、6つの代表的なCNNにおいて平均的なDRAMエネルギー消費を61.3%まで削減する。
最も消極的なバージョン（min-RTC）でも、DRAMエネルギー消費を24.4%削減する。
Face RecognitionワークロードではDRAMエネルギーを31.9%、Bayesian Confidence Propagation Neural Network（BCPNN）では16.9%削減する。
full-RTCは16GBのDRAMチップでわずか0.18%の面積オーバーヘッドにとどまり、今後の高密度DRAM技術ではさらに低いオーバーヘッドが期待できる。
本手法は、データ圧縮やSRAMバッファリングといった既存の最適化と相乗効果を示し、それらと組み合わせることでさらなるエネルギー削減が可能である。
RTCは、CNNに限らず、定期的で予測可能なメモリアクセスパターンを持つ多様なデータ集約型ワークロードに適用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。