QUICK REVIEW

[論文レビュー] Hardware-Efficient Structure of the Accelerating Module for Implementation of Convolutional Neural Network Basic Operation

Aleksandr Cariow, Galina Cariowa|arXiv (Cornell University)|Jan 1, 2018

Advanced Data Processing Techniques参考文献 17被引用数 1

ひとこと要約

この論文は、修正されたWinograd最小フィルタリング法と計算ベクトル化を活用することで、畳み込みニューラルネットワーク（CNN）演算を高速化するハードウェア効率の良いモジュールを提案する。乗算器を6個から4個に、加算器を4個から8個に削減することで、実装の複雑さを顕著に低減し、数十〜数百個のこのようなモジュールを用いる大規模なCNNにおいて、大幅な効率向上を実現する。

ABSTRACT

This paper presents a structural design of the hardware-efficient module for implementation of convolution neural network (CNN) basic operation with reduced implementation complexity. For this purpose we utilize some modification of the Winograd minimal filtering method as well as computation vectorization principles. This module calculate inner products of two consecutive segments of the original data sequence, formed by a sliding window of length 3, with the elements of a filter impulse response. The fully parallel structure of the module for calculating these two inner products, based on the implementation of a naive method of calculation, requires 6 binary multipliers and 4 binary adders. The use of the Winograd minimal filtering method allows to construct a module structure that requires only 4 binary multipliers and 8 binary adders. Since a high-performance convolutional neural network can contain tens or even hundreds of such modules, such a reduction can have a significant effect.

研究の動機と目的

CNN加速モジュールのハードウェア複雑性を低減し、エネルギー効率および面積効率を向上させること。
畳み込み演算における内積計算に必要なバイナリ乗算器および加算器の数を最小限に抑えること。
Winograd最小フィルタリング法を応用して、CNNにおける畳み込み計算を最適化すること。
基本演算ごとのリソース要求を低減することで、CNNのスケーラブルな展開を可能にすること。
構造的最適化を通じて、CNNハードウェアアクセラレータのパフォーマンス・パワーレート（性能/ワット）を向上させること。

提案手法

CNN畳み込みにおける内積計算を再構成するために、修正されたWinograd最小フィルタリング法を採用すること。
2つの連続するデータセグメントを並列に処理する計算ベクトル化の原則を適用すること。
2つの内積を同時に計算する完全並列アーキテクチャを設計し、最適化された算術回路を用いること。
単純な方法が要する6個の乗算器と4個の加算器を、4個の乗算器と8個の加算器に置き換えることで、より効率的な構造を実現すること。
畳み込み演算の数学的再編成により、冗長な計算とハードウェア使用量を最小限に抑えること。
CNN推論パイプラインにおける高スルーレート・低遅延動作を実現できるようにモジュールを構造化すること。

実験結果

リサーチクエスチョン

RQ1計算精度を損なわずに、CNN畳み込みモジュールのハードウェア複雑性をどのように低減できるか？
RQ2スライディングウィンドウ畳み込みにおいて、2つの連続する内積を計算するために必要な最小限の乗算器および加算器の数は何か？
RQ3Winograd最小フィルタリング法を応用することで、CNNハードウェアアクセラレータにおける乗算器数を削減可能か？
RQ4データセグメントのベクトル化は、畳み込み演算におけるハードウェア効率をどの程度向上させるか？
RQ5提案された構造は、大規模なCNNアーキテクチャにおいて、リソースの節約という観点でどの程度スケーラブルか？

主な発見

提案されたモジュールにより、バイナリ乗算器の数が6個から4個に削減され、33％の削減が達成された。
バイナリ加算器の数は4個から8個に増加したが、このトレードオフにより総合的なハードウェア複雑性が顕著に低減された。
修正されたWinograd法により、最小限の算術リソースで2つの内積を並列に効率的に計算できるようになった。
最適化された構造は、数十〜数百個のモジュールを用いる大規模なCNNにおいて特に有益である。
本設計は顕著なハードウェア効率の向上を実現し、高性能かつ低消費電力なCNNアクセラレータに適している。
アルゴリズム的最適化が、CNNハードウェアにおける重要な算術コンponentsの明確な削減をもたらすことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。