QUICK REVIEW

[論文レビュー] Accelerating Deep Convolutional Networks using low-precision and sparsity

Ganesh Venkatesh, Eriko Nurvitadhi|arXiv (Cornell University)|Oct 2, 2016

Advanced Neural Network Applications参考文献 5被引用数 18

ひとこと要約

本論文は、2ビットの三値重みを用いた深層残差ネットワークを提案し、ImageNetで76.6% Top-1/93% Top-5の精度を達成した。これは、これまでの低精度ネットワークよりも高い精度であり、計算量を約3倍削減した。また、ゼロ値演算をスキップするdLACと呼ばれるハードウェアアクセラレータを導入し、低精度ネットワークに内在するスパarsityを活用することで、最大1 TFLOP/mm²のパフォーマンス密度を達成した。

ABSTRACT

We explore techniques to significantly improve the compute efficiency and performance of Deep Convolution Networks without impacting their accuracy. To improve the compute efficiency, we focus on achieving high accuracy with extremely low-precision (2-bit) weight networks, and to accelerate the execution time, we aggressively skip operations on zero-values. We achieve the highest reported accuracy of 76.6% Top-1/93% Top-5 on the Imagenet object classification challenge with low-precision network\footnote{github release of the source code coming soon} while reducing the compute requirement by ~3x compared to a full-precision network that achieves similar accuracy. Furthermore, to fully exploit the benefits of our low-precision networks, we build a deep learning accelerator core, dLAC, that can achieve up to 1 TFLOP/mm^2 equivalent for single-precision floating-point operations (~2 TFLOP/mm^2 for half-precision).

研究の動機と目的

精度を損なわせることなく、深層畳み込みネットワークの計算効率を向上させること。
極めて低精度（2ビット）の重みを用いて、高精度な推論および学習を可能にすること。
低精度ネットワークに内在する動的スパarsityを活用して、計算を高速化すること。
スパarsityを活用してゼロ演算をスキップする、高性能かつ面積効率に優れた深層学習アクセラレータ（dLAC）を設計すること。
より深い低精度ネットワークが、浅いフル精度モデルよりも精度と効率の両面で優れていることを実証すること。

提案手法

三値重み量子化を用いる：重みはしきい値に基づき{-1, 0, 1}にマッピングされ、2ビット表現が可能になる。
精度向上のため、低精度学習に移行する前に、学習率の急激なスケジューリングとフル精度事前学習を適用する。
ゼロ重みが学習および推論中に変化することを許容することで、静的プルーニングを超える有効スパarsityを実現する動的スパarsityを採用する。
ゼロ値に対する乗算累積演算をスキップすることで、有効FLOPスループットを向上させる、独自のアクセラレータコアdLACを設計する。
14nm CMOSプロセスにdLACを合成し、純粋なASICフローを用いてバッファと算術ユニットを最適化し、高密度かつ高パフォーマンスを実現する。
ResNet-34の各層における性能を評価し、ゼロスキップにより、より深いスパースな層でより高いスループット向上が得られることを示した。

実験結果

リサーチクエスチョン

RQ12ビット三値重みネットワークは、計算量を3倍削減しながら、ImageNetで最先端の精度を達成できるか？
RQ2低精度ネットワークにおける動的スパarsityは、静的プルーニングと比較して、計算量の削減と精度の両面で優れているか？
RQ3ゼロ演算をスキップするハードウェアアクセラレータは、実世界のネットワークで1 TFLOP/mm²を超えるパフォーマンス密度を達成できるか？
RQ4より深いネットワークの低精度版（例：ResNet-34）は、浅いフル精度モデル（例：ResNet-18）を精度と効率の両面で上回るか？
RQ5dLACのパフォーマンスは、スパarsityが深層部で増加するに従い、深層ネットワークの異なる層でどのようにスケーリングするか？

主な発見

2ビット三値重みを用いたResNet-34は、ImageNetで76.6% Top-1および93% Top-5の精度を達成した。これは、低精度ネットワークにおける報告済み最高精度であり、2015年のImageNet優勝モデルと比較して1.3%以内の差にとどまる。
低精度のResNet-34は、精度が高く、フル精度のResNet-18よりも約3倍少ない浮動小数点演算量で実行可能である。
dLACは、単精度モードで最大1 TFLOP/mm²の等価パフォーマンス密度を維持し、パフォーマンス密度において、これまでのアクセラレータを約5倍上回った。
ゼロ値演算をスキップすることで、dLACは1.8～5倍のスループット向上を達成し、特に深くスパースなResNet-34の層でより大きな恩恵を受けた。
dLACは500 MHzで2.5 Teraflops/秒の性能を発揮し、14nmプロセスで2.2 mm²のチップ面積を占め、深層部のスパarsityが高いため、より高いパフォーマンス密度（1 TFLOP/mm²以上）を達成可能である。
低精度のResNet-34は、精度と計算効率の両面でフル精度のResNet-18を上回り、低精度スケーリングがフル精度ベースラインを凌駆することを実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。