[論文レビュー] Bit Fusion: Bit-Level Dynamically Composable Architecture for Accelerating Deep Neural Networks
Bit Fusionは、個々のDNNレイヤーの可変ビット幅に合わせてビット粒度で処理要素を動的に結合するビットレベルでの動的合成が可能なDNNアクセラレータを提案する。これにより、精度を損なわずに計算量とメモリトラフィックを大幅に削減できる。45 nmプロセスで評価した結果、Eyerissと比較して3.9倍の高速化と5.1倍のエネルギー効率向上を達成した。16 nmプロセスでは、250WのTitan Xpと同等の性能を発揮しながら、わずか895 mWの消費電力に抑えた。
Fully realizing the potential of acceleration for Deep Neural Networks (DNNs) requires understanding and leveraging algorithmic properties. This paper builds upon the algorithmic insight that bitwidth of operations in DNNs can be reduced without compromising their classification accuracy. However, to prevent accuracy loss, the bitwidth varies significantly across DNNs and it may even be adjusted for each layer. Thus, a fixed-bitwidth accelerator would either offer limited benefits to accommodate the worst-case bitwidth requirements, or lead to a degradation in final accuracy. To alleviate these deficiencies, this work introduces dynamic bit-level fusion/decomposition as a new dimension in the design of DNN accelerators. We explore this dimension by designing Bit Fusion, a bit-flexible accelerator, that constitutes an array of bit-level processing elements that dynamically fuse to match the bitwidth of individual DNN layers. This flexibility in the architecture enables minimizing the computation and the communication at the finest granularity possible with no loss in accuracy. We evaluate the benefits of BitFusion using eight real-world feed-forward and recurrent DNNs. The proposed microarchitecture is implemented in Verilog and synthesized in 45 nm technology. Using the synthesis results and cycle accurate simulation, we compare the benefits of Bit Fusion to two state-of-the-art DNN accelerators, Eyeriss and Stripes. In the same area, frequency, and process technology, BitFusion offers 3.9x speedup and 5.1x energy savings over Eyeriss. Compared to Stripes, BitFusion provides 2.6x speedup and 3.9x energy reduction at 45 nm node when BitFusion area and frequency are set to those of Stripes. Scaling to GPU technology node of 16 nm, BitFusion almost matches the performance of a 250-Watt Titan Xp, which uses 8-bit vector instructions, while BitFusion merely consumes 895 milliwatts of power.
研究の動機と目的
- 可変ビット幅演算を処理する際、固定ビット幅のDNNアクセラレータがハードウェアを無駄に利用するか、精度を低下させるという非効率性に対処する。
- DNNが各レイヤーでビット幅を低くしても精度を維持できることに着目し、細粒度の最適化を可能にするアルゴリズム的知見を活用する。
- 各DNNレイヤーのビット幅に応じて実行時に動的に結合・分解が可能なハードウェアアーキテクチャを設計する。
- 各レイヤーで必要な最小ビット幅でデータを格納・処理することで、計算量とメモリアクセスのエネルギーを最小限に抑える。
- ビットレベルの柔軟性が、CNNやRNNを含む多様なDNNワークロードにおいて、顕著な性能向上とエネルギー効率の向上をもたらすことを実証する。
提案手法
- 各DNNレイヤーの演算ビット幅に応じて、動的に結合または分解可能なビットレベルのプロセッシング要素のアレイで構成されるビット柔軟なアクセラレータを設計する。
- 命令セットアーキテクチャ(Fusion-ISA)をカスタム実装し、ループ命令と反復的セマンティクスを備えることで、命令の断片化を低減し、ビットレベルの制御を可能にする。
- データを格納・取得するエンコーディングおよびメモリアクセスロジックを統合し、必要な最小ビット幅でデータを格納することで、オフチップおよびオンチップメモリトラフィックを削減する。
- 45 nmプロセスでサイクル単位のシミュレーションとVerilog合成を実施し、8つの実世界のDNNにおいて、性能、面積、消費電力の評価を実施する。
- 面積、周波数、プロセス技術の制約を同一にした条件下で、Bit FusionをEyerissおよびStripesと比較し、ビットレベルの合成性の利点を明確に分離する。
- 16 nmプロセスに設計をスケーリングし、消費電力と性能指標を用いて、高機能GPU(例:Titan Xp)と比較しての性能を評価する。
実験結果
リサーチクエスチョン
- RQ1DNNアクセラレータにおける動的ビットレベル統合は、分類精度を損なわずに計算量とメモリトラフィックを顕著に削減できるか?
- RQ2固定ビット幅またはバイナリオンリーオンリーアクセラレータと比較して、ビットレベルの合成性は性能およびエネルギー効率においてどのように優れているか?
- RQ3DNNレイヤー間のビット幅の変動をどれほど活用することで、ハードウェアリソースの使用量とデータ移動量を最小限に抑えられるか?
- RQ416 nmのような先端プロセスノードにスケーリングした際、ビットレベル統合が性能とエネルギーに与える影響は何か?
- RQ5ビット柔軟なアクセラレータは、超高消費電力GPUと同等の性能を発揮しながら、超低消費電力を維持できるか?
主な発見
- 45 nmプロセスにおいて、面積、周波数、プロセス技術の制約をEyerissと同一にした条件下で、Bit Fusionは3.9倍の高速化と5.1倍のエネルギー効率向上を達成した。
- 45 nmノードにおいて面積と周波数を同一にした条件下で、Stripesと比較してBit Fusionは2.6倍の高速化と3.9倍のエネルギー削減を達成した。
- 16 nmプロセスノードにおいて、Bit Fusionは250WのTitan Xp GPUと同等の性能を発揮しながら、消費電力はわずか895 mWに抑えられた。
- DNNにおける乗算加算演算の割合が99%以上を占めるため、ビット幅の低減に伴い、ビットレベルの計算量はほぼ2乗的に削減される。
- データを必要な最小ビット幅で格納・取得することで、メモリアクセスエネルギーが比例的に削減され、有効なオンチップメモリ容量が向上する。
- Fusion-ISAにより、ビットレベル統合の効率的なソフトウェア制御が可能となり、命令の断片化が低減され、並列性とデータ局所性が最大化される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。