QUICK REVIEW

[論文レビュー] VarGNet: Variable Group Convolutional Neural Network for Efficient Embedded Computing

Qian Zhang, Jianjun Li|arXiv (Cornell University)|Jul 12, 2019

Advanced Neural Network Applications参考文献 51被引用数 24

ひとこと要約

本稿では、入力チャネル数をグループごとに固定するのではなくグループ数を固定するのではなく、可変グループ畳み込みを導入することで、効率的な組み込み推論を最適化した新しい畳み込みニューラルネットワークアーキテクチャであるVarGNetを提案する。この設計により、より一様な計算パターンとデータレイアウトが実現され、ハードウェアおよびコンパイラ最適化が顕著に向上する。VarGNetは、複数のビジョンタスクにおいて最先端の精度を達成するとともに、MAddsとパラメータ数を削減し、エッジデバイスにおける優れた効率性を示している。

ABSTRACT

In this paper, we propose a novel network design mechanism for efficient embedded computing. Inspired by the limited computing patterns, we propose to fix the number of channels in a group convolution, instead of the existing practice that fixing the total group numbers. Our solution based network, named Variable Group Convolutional Network (VarGNet), can be optimized easier on hardware side, due to the more unified computing schemes among the layers. Extensive experiments on various vision tasks, including classification, detection, pixel-wise parsing and face recognition, have demonstrated the practical value of our VarGNet.

研究の動機と目的

組み込みAIシステムにおけるネットワークアーキテクチャ設計とハードウェア／コンパイル最適化のギャップを埋めること。
組み込みチップに備わる限られた固定計算ユニットに合わせて、ネットワークの計算パターンを整えることで、ハードウェア効率を向上させること。
層間の計算強度を均衡させ、より一貫性のあるデータレイアウトを実現することで、外部メモリへのアクセスコストを低減すること。
体系的なアーキテクチャ設計により、軽量ネットワークの既存のFPGAおよびASICアクセラレータとの互換性を高めること。
固定チャネル数ごとのグループ化が、従来の固定グループ畳み込みよりも優れたコンパイラおよびハードウェア最適化を可能にすることを示すこと。

提案手法

グループごとの入力チャネル数を固定し、調整可能なハイパーパrameterとして扱う可変グループ畳み込みを導入する。これは、グループ数を固定するのではなく、その逆である。
標準の逆残差ブロックを変更した設計に置き換える：まず可変グループ畳み込みを用いて入力チャネルを2Cに拡張し、その後ポイントワイド畳み込みでCに再投影することで、計算強度をバランスさせる。
オンチップからオフチップへのメモリ転送を最小限に抑える理想的なデータレイアウトにネットワークを設計する。
計算パターンが層間で一貫していることを保証することで、ストリーミングまたは単一計算エンジンアクセラレータの効率的利用を可能にする。
Depthwise Separable Convolutionをベースとしつつ、チャネル拡張およびプロジェクション段階を再構築することで、計算の一様性を向上させる。
ターゲットチップがサポートする命令セットとネットワークの操作パターンを一致させることで、既存のコンパイルおよびアクセラレータフレームワークを活用する。

実験結果

リサーチクエスチョン

RQ1組み込みハードウェアの制限された計算パターンとネットワークアーキテクチャ設計をどのように一致させれば効率性が向上するか？
RQ2どのようなアーキテクチャ的変更が、組み込みCNNにおける外部メモリアクセスの低減とデータレイアウトの一貫性の向上を実現できるか？
RQ3グループごとの入力チャネル数を固定することで、従来の固定グループ畳み込みよりも優れたハードウェアおよびコンパイラ最適化が達成できるか？
RQ4可変グループ畳み込みは、Depthwise Separable Convolutionと比較して、モデル容量および通信コストの面でどのように異なるか？
RQ5ハードウェアに配慮したネットワーク設計は、実世界の組み込みビジョンタスクにおけるパフォーマンス向上にどの程度寄与するか？

主な発見

VarGNet v1 1.0 は 36.0 G MAdds および 13.2M パラメータを達成し、KITTIステレオ深度推定タスクで MobileNetV2 1.0（36.8 G MAdds、7.6M パラメータ）を上回る性能を示した。EPE は 1.3296（VarGNet）vs. 1.424（MobileNetV2）であり、D1 は 0.0703 vs. 0.0777 であった。
KITTI RAW データセットにおいて、VarGNet v1 1.0 はわずかに低い MAdds でも、絶対相対誤差（0.098）が低く、精度（δ <1.25: 0.899）が MobileNetV2 1.0（0.097 および 0.903）を上回った。
顔認識タスクでは、VarGNet v1 1.0 は 1e-6 FRR で 96.15% の精度を達成し、MobileNetV2（89.82%）および MobileNetV1（93.58%）を上回った。MAdds はたった 603M にとどまった。
VarGNet v2 1.0 は MAdds を 20.7G に削減しながら、KITTI15 での EPE 1.5856 という競争力ある性能を維持し、低消費電力デプロイメントに優れた効率性を示した。
提案された可変グループ畳み込みにより、Depthwise およびポイントワイド畳み込み間の計算バランスが向上し、コンパイラおよびハードウェア最適化の課題が軽減された。
分類、検出、セグメンテーション、ステレオ深度、顔認識の各タスクにおける実験から、VarGNetの実用的価値とエッジデバイスにおける広範な適用可能性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。