QUICK REVIEW

[論文レビュー] Deep Neural Network Approximation for Custom Hardware: Where We've Been, Where We're Going

Erwei Wang, James J. Davis|arXiv (Cornell University)|Jan 21, 2019

Advanced Neural Network Applications参考文献 144被引用数 25

ひとこと要約

本論文は、カスタムハードウェアアクセラレータ向けに最適化された深層ニューラルネットワーク（DNN）近似技術について包括的なサーベイを提示しており、計算コストおよびメモリコストを低減する量子化およびプルーニング手法に焦点を当てている。FPGAおよびASIC実装におけるその有効性を評価し、一般用途プロセッサと比較して、ハードウェアに最適化された近似がスループットおよびエネルギー効率の面で顕著な向上をもたらすことを示している。実例では、異種FPGA-ASICシステムにおいて最大4.0×のスループット向上および3.3×のエネルギー効率向上が達成された。

ABSTRACT

Deep neural networks have proven to be particularly effective in visual and audio recognition tasks. Existing models tend to be computationally expensive and memory intensive, however, and so methods for hardware-oriented approximation have become a hot topic. Research has shown that custom hardware-based neural network accelerators can surpass their general-purpose processor equivalents in terms of both throughput and energy efficiency. Application-tailored accelerators, when co-designed with approximation-based network training methods, transform large, dense and computationally expensive networks into small, sparse and hardware-efficient alternatives, increasing the feasibility of network deployment. In this article, we provide a comprehensive evaluation of approximation methods for high-performance network inference along with in-depth discussion of their effectiveness for custom hardware implementation. We also include proposals for future research based on a thorough analysis of current trends. This article represents the first survey providing detailed comparisons of custom hardware accelerators featuring approximation for both convolutional and recurrent neural networks, through which we hope to inspire exciting new developments in the field.

研究の動機と目的

カスタムハードウェアアクセラレーション向けに、最新のDNN近似手法（量子化およびプルーニング）を評価および比較すること。
アルゴリズム的近似技術がハードウェアプラットフォームとどのように共同設計され得るかを分析し、パフォーマンスおよびエネルギー効率を向上させること。
FPGAおよびASICに圧縮DNNを実装するうえでの主なトレンドと課題を同定すること。
現在のハードウェアに最適化されたトレーニングおよびアクセラレータ設計における制限に基づき、今後の研究方向性を提案すること。

提案手法

本論文は、DNN近似に関する100件以上の最近の研究を系統的かつ比較的にレビューし、特に量子化およびプルーニング技術に焦点を当てている。
パフォーマンスボトルネックの特定と近似による潜在的な利得を評価するために、ルーフラインモデルを用いてハードウェアパフォーマンスを評価している。
近似手法を、重み／活性化の精度低減による量子化と、構造的簡略化および重みの削除によるプルーニングに分類している。
パラメータのハードネッティング、動的算術演算の回避、異種FPGA-ASIC統合などのハードウェア固有の最適化を検討している。
FPGA（例：ESE、Cnvlutin）およびASIC（例：Minerva、Google TPU）における実世界の実装を評価し、スループットおよびエネルギー効率を測定している。
カスタムアクセラレータと近似に最適化されたトレーニングを共同設計するためのフレームワークを提案している。

実験結果

リサーチクエスチョン

RQ1異なる量子化およびプルーニング技術は、DNN推論用カスタムハードウェアアクセラレータのパフォーマンスおよびエネルギー効率にどのように影響を与えるか？
RQ2DNN用のFPGA-ASIC異種システムにおいて、設計の柔軟性、再利用性、パフォーマンスの間にはどのようなトレードオフがあるか？
RQ3パラメータのハードネッティングおよび量子化重みのオンチップ保存は、どれほどオフチップメモリアクセスを削減でき、エネルギー効率を向上させ得るか？
RQ4細粒度プルーニングによる不規則なスパarsityパターンはハードウェアパフォーマンスにどのように影響を及ぼし、どのようなハードウェア機構がこれを緩和できるか？
RQ5カスタムハードウェアプラットフォームと近似に最適化されたトレーニングを共同設計するうえでの主な未解決課題は何か？

主な発見

Intelの埋め込みマルチダイインターコネクトブリッジを用いた異種FPGA-ASICシステムは、AlexNetに対してFPGA単体の設計と比較し、最大4.0×のスループット向上および3.3×のエネルギー効率向上を達成した。
細粒度プルーニングは最大9.0×の圧縮を達成できるが、一般用途プロセッサ（GPP）では不規則なデータアクセスパターンのため、比例するスループット向上が得られないことが多く、専用ハードウェアの必要性を浮き彫りにしている。
ESE（FPGA）およびMinerva（ASIC）などのハードウェアアクセラレータは、スパースネットワークにおける動的算術演算の回避をサポートすることで、優れたスループットおよびエネルギー効率を実現している。
特に2のべき乗対数量子化を用いたパラメータのハードネッティングは、乗算を排除し、オフチップメモリアクセスを削減でき、場合によっては完全なオンチップ実行を可能にする。
バイナリゼーションや重み共有といった積極的な近似技術と組み合わせることで、カスタムハードウェアアクセラレータは一般用途プロセッサを上回るスループットおよびエネルギー効率を達成する。
トレーニング可能スケーリング因子および自己適応的プルーニング／微調整の統合は、設計レイテンシを顕著に低減し、実装の可能性を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。