QUICK REVIEW

[論文レビュー] CBinfer: Change-Based Inference for Convolutional Neural Networks on Video Data

Lukas Cavigelli, Philippe Degen|arXiv (Cornell University)|Jan 1, 2017

Advanced Neural Network Applications参考文献 43被引用数 6

ひとこと要約

本稿では、静止カメラからの動画に対して畳み込みニューラルネットワーク（CNN）の変化ベース推論手法であるCBinferを提案する。この手法は、ピクセル変化の空間時間的スパarsityを活用することで処理を高速化する。フレーム間の変化領域にのみ選択的に計算を実行することで、cuDNNベースラインと比較して8.6倍の高速化を達成し、精度損失は0.1%未満、Tegra X1プラットフォーム上では328 GOp/s/Wのエネルギー効率（10倍向上）を実現した。再訓練を必要とせず、エッジシステム上でリアルタイムのCNN推論を可能にする。

ABSTRACT

Extracting per-frame features using convolutional neural networks for real-time processing of video data is currently mainly performed on powerful GPU-accelerated workstations and compute clusters. However, there are many applications such as smart surveillance cameras that require or would benefit from on-site processing. To this end, we propose and evaluate a novel algorithm for change-based evaluation of CNNs for video data recorded with a static camera setting, exploiting the spatio-temporal sparsity of pixel changes. We achieve an average speed-up of 8.6x over a cuDNN baseline on a realistic benchmark with a negligible accuracy loss of less than 0.1% and no retraining of the network. The resulting energy efficiency is 10x higher than that of per-frame evaluation and reaches an equivalent of 328 GOp/s/W on the Tegra X1 platform.

研究の動機と目的

限られた電力と計算能力を有するエッジシステムにおいて、高解像度動画のリアルタイムでエネルギー効率の高いCNN推論を実現すること。
動画監視などの応用分野におけるCNN推論の高い計算コストの課題に対処すること。
静止カメラからのピクセル変化における空間時間的スパarsityを活用して、無駄な計算を削減すること。
ネットワークの再訓練を必要とせず、精度を損なわず、顕著な高速化とエネルギー効率の向上を達成すること。
スマート監視やUAV監視などの応用分野における、デバイス内かつセンサー近接処理の実現可能性を示すこと。

提案手法

変化ベース推論は、しきい値を設定した差分演算により、連続するフレーム間のピクセル変化を検出することで実行される。
変化領域の入力部分に対してのみ出力更新を計算することで、各畳み込み層を再計算せずに変化を伝搬する。
行列乗算に基づくアプローチにより、変化した入力パッチと対応するフィルタを用いて更新された特徴マップを計算し、cuBLASを活用してGPU最適化を実現する。
各層で変化検出を適用することで精度を維持し、誤差の拡大を防ぎ、誤分類を最小限に抑えるようにしきい値を最適化する。
アルゴリズムは各層で変化したピクセルのみを処理するため、乗算累積演算の数を顕著に削減する。
最適化されたカーネルをGPU上で実装し、既存のCNN推論パイプラインとシームレスに統合できる。

実験結果

リサーチクエスチョン

RQ1静止カメラからのピクセル変化における空間時間的スパarsityを活用することで、再訓練を伴わずCNN推論を高速化できるか？
RQ2フルフレーム処理と比較して、変化ベース推論による最大の高速化とエネルギー効率の向上はどの程度達成できるか？
RQ3変化の伝搬は精度にどのように影響するか？また、無視できる精度損失を保証するしきい値は何か？
RQ4エッジプラットフォーム上で計算負荷を低減しつつ、高いスループットを維持できるか？
RQ5変化検出パラメータを調整する際の、スループットと精度のトレードオフは何か？

主な発見

CBinferは、現実的で都市部の動画監視ベンチマークにおいて、cuDNNベースラインと比較して平均8.6倍の高速化を達成し、精度損失は0.1%未満であった。
エネルギー効率は10倍向上し、Tegra X1プラットフォーム上で328 GOp/s/Wに達した（ベースラインは32.0 GOp/s/W）。
変化検出の計算オーバーヘッドはわずかで、Layer 3では合計時間の22%にとどまり、計算削減による利点を上回っている。
各層で変化検出を適用することで、Layer 2では変化ピクセル数が6.8倍（7.57%から1.11%へ）減少し、Layer 3では1.33倍（2.58%から1.94%へ）減少した。
計算時間の大部分が後続層（プーリングおよび分類）に集中し、合計時間の36%を占めるようになった。これは、新たな最適化の対象であることを示している。
変化領域に計算を集中させることで、GPUの利用率を高く維持でき、更新出力の乗算累積演算においてGPUが完全に使用されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。