Skip to main content
QUICK REVIEW

[論文レビュー] Bit-Tactical: Exploiting Ineffectual Computations in Convolutional Neural Networks: Which, Why, and How

Alberto Delmás, Patrick Judd|arXiv (Cornell University)|Mar 9, 2018
Advanced Neural Network Applications参考文献 20被引用数 18
ひとこと要約

Bit-Tactical (TCL) は、ゼロ重みやアクティベーションにのみ焦点を当てないで、活性化の動的精度可変性および無効なビット内容を活用することで、CNN推論の性能とエネルギー効率を向上させるハードウェアアクセラレータである。モデル変更を要せず、畳み込み層および全結合層の両方をネイティブにサポートする。密度の高いベースラインと比較して、5.05倍の高い性能と2.98倍の高いエネルギー効率を達成する。

ABSTRACT

We show that, during inference with Convolutional Neural Networks (CNNs), more than 2x to $8x ineffectual work can be exposed if instead of targeting those weights and activations that are zero, we target different combinations of value stream properties. We demonstrate a practical application with Bit-Tactical (TCL), a hardware accelerator which exploits weight sparsity, per layer precision variability and dynamic fine-grain precision reduction for activations, and optionally the naturally occurring sparse effectual bit content of activations to improve performance and energy efficiency. TCL benefits both sparse and dense CNNs, natively supports both convolutional and fully-connected layers, and exploits properties of all activations to reduce storage, communication, and computation demands. While TCL does not require changes to the CNN to deliver benefits, it does reward any technique that would amplify any of the aforementioned weight and activation value properties. Compared to an equivalent data-parallel accelerator for dense CNNs, TCLp, a variant of TCL improves performance by 5.05x and is 2.98x more energy efficient while requiring 22% more area.

研究の動機と目的

  • ゼロ値の重みやアクティベーションにのみ焦点を当てた既存のCNNアクセラレータの限界を解決すること。これらは、深層ニューラルネットワークにおける情報的非効率を十分に活用できない。
  • ゼロ値の重みやアクティベーション以外の、特にアクティベーション値における動的精度可変性と無効なビット内容といった、非効用計算の代替的要因を探索すること。
  • モデル変更を必要とせず、スパースおよび密なCNNの両方をネイティブにサポートする実用的なハードウェアアクセラレータを設計すること。
  • 非ゼロだが低影響のアクティベーションビットと可変精度要件に焦点を当てることで、ゼロベースのスキップのみに依存するのと比較して、より高い性能ポテンシャルが得られることを示すこと。

提案手法

  • 静的再配置とソフトウェアスケジューリングを用いて重みのスパarsityを活用し、小規模なマルチプレクサ(4〜8入力)を活用してゼロ重みのスキップを効率的に行う。
  • 2つのバリエーションを導入:TCLe は、効果的なビットの不均衡な分布(平均で10%未塔のビットが1)を対象とし、TCLp は、プロファイルされた要件に基づいて各層の精度を動的に低減する。
  • プロセッシングエレメント間でのアクティベーション配布にブロードキャスト方式を採用し、アダーツリーに複数の積和を集約することで、PE間通信を削減する。
  • 畳み込み層および全結合層の両方を、ネットワークのアーキテクチャ変更なしにネイティブにサポートする。
  • 必要精度に応じてスケーリングされる細粒度の動的精度低減戦略を採用し、計算量を精度要件に合わせて調整することで、ストレージおよび通信のオーバーヘッドを削減する。
  • 明示的なプルーニングや値のゼロ化を必要とせず、CNNの固有の性質(例えば、アクティベーションがゼロ付近にクラスタリングされ、効果的なビットパターンが疎である)を活用する。

実験結果

リサーチクエスチョン

  • RQ1ゼロでない値以外のアクティベーション値の性質の中で、CNN推論における非効用計算の低減に大きな潜在的効果をもたらすものは何か?
  • RQ2ゼロ値の重みやアクティベーションよりも、アクティベーションの動的精度可変性と無効なビット内容を効果的に活用することで、性能とエネルギー効率をより良くできるか?
  • RQ3モデル変更を要せず、複数の情報的非効率の形態を同時に活用できるハードウェアアクセラレータをどのようにアーキテクチャ設計できるか?
  • RQ4特にスパースおよび密なネットワークにおいて、ゼロ値ではなくアクティベーション精度とビット内容に焦点を当てた場合の、性能とエネルギー効率のトレードオフは何か?

主な発見

  • アクティベーションの動的精度可変性と無効なビット内容に焦点を当てることで、ゼロベースのスキップのみに依存する場合と比較して、2倍から8倍の高い性能ポテンシャルが得られ、特にアレクサンダNetのようなプルーニング済みモデルで顕著である。
  • TCLp は TCL のバリエーションであり、同等のデータ並列な密なアクセラレータ(TCLp)と比較して、5.05倍の高い性能と2.98倍の高いエネルギー効率を達成している。面積は22%増加しているが、依然として顕著な性能向上を実現している。
  • 設計はスパースおよび密なCNNの両方で利点を発揮し、モデルレベルの変更が不要である。これは、アクティベーション分布の固有の性質と精度スケーリングのおかげである。
  • アクティベーションのビットパターンと精度可変性を活用することで、TCLはすべてのレイヤー(全結合レイヤーを含む)でストレージ、通信、計算の要求を削減する。
  • TCLでは、ゼロ値のアクティベーションを完全に除去しない場合の機会的コストは、ビット並列アクセラレータと比較して顕著に低い。精度およびビットレベルの最適化による利点が、損失を上回る。
  • TCLは、CNN設計者が重みのスパarsityを向上させたり、アクティベーションの精度を低下させたり、ゼロビットの割合を増やしたりするようにインcentivizeする。こうした最適化は、TCLが即座に恩恵を受ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。