QUICK REVIEW

[論文レビュー] PerforatedCNNs: Acceleration through Elimination of Redundant Convolutions

Michael Figurnov, Aijan Ibraimova|arXiv (Cornell University)|Apr 30, 2015

Advanced Neural Network Applications参考文献 22被引用数 119

ひとこと要約

この論文では、パーソレーションマスクを用いて空間的に特定の位置での畳み込み計算を効果的にスキップすることで、畳み込みニューラルネットワーク（CNN）の計算を高速化するPerforatedCNNsという手法を紹介する。欠落した出力を補間し、ネットワークを微調整することで、アーキテクチャを変更せずにAlexNetおよびVGG-16で2×–4×の高速化を達成し、精度の低下を最小限に抑えつつ、他の高速化技術と組み合わせることが可能である。

ABSTRACT

We propose a novel approach to reduce the computational cost of evaluation of convolutional neural networks, a factor that has hindered their deployment in low-power devices such as mobile phones. Inspired by the loop perforation technique from source code optimization, we speed up the bottleneck convolutional layers by skipping their evaluation in some of the spatial positions. We propose and analyze several strategies of choosing these positions. We demonstrate that perforation can accelerate modern convolutional networks such as AlexNet and VGG-16 by a factor of 2x - 4x. Additionally, we show that perforation is complementary to the recently proposed acceleration method of Zhang et al.

研究の動機と目的

モバイル端末などの低消費電力デバイスへの実装を想定し、畳み込みニューラルネットワーク（CNN）の評価にかかる計算コストを低減すること。
中間特徴マップにおける空間的冗長性を活用し、ネットワークアーキテクチャを変更せずに不要な畳み込み計算を削減すること。
アーキテクチャを保存する柔軟な手法を構築し、畳み込み層内の空間的位置を部分的に評価することで、高速な推論を実現すること。
パーソレーションが、低ランク分解や重みプルーニングといった既存の高速化技術と相乗効果を発揮することを示すこと。

提案手法

畳み込み層にループパーソレーションの原則を適用し、空間的位置の部分集合を正確に計算するためのパーソレーションマスク I ⊆ Ω を定義する。
残りの出力位置は補間によって再構築され、計算量を削減しながらも空間的構造を保持する。
均等、ランダム、および特徴マップ統計に基づく適応的パターンを含む、複数のパーソレーションマスク選択戦略が提案される。
パーソレーション後にネットワークを微調整することで精度を回復させ、再トレーニングの必要を最小限に抑える。
既存のディープラーニングライブラリと互換性があり、CuDNNや同様のフレームワークに統合可能である。
張ららららら[28]のチャネル間冗長性手法と組み合わせることで、異なる種類の冗長性を活用し、さらなる高速化を実現する。

実験結果

リサーチクエスチョン

RQ1畳み込み特徴マップにおける空間的冗長性を活用することで、ネットワークアーキテクチャを変更せずに推論時間を短縮できるか？
RQ2精度損失を最小限に抑えながら計算の高速化を最大化するためのパーソレーションマスクはどのように設計できるか？
RQ3低ランク分解などの他の高速化技術と組み合わせた場合、パーソレーションはどの程度効果を発揮するか？
RQ4AlexNetやVGG-16のような異なるモデルにおいて、パーソレーションネットワークの性能はどの程度頑健か？

主な発見

PerforatedCNNsは、AlexNetおよびVGG-16において、CPUおよびGPUの両方で2×–4×の高速化を達成し、トップ-1精度の低下はわずかである。
VGG-16では、理論上の4倍の高速化が、GPU上で実際には4.7倍の高速化を達成し、乗算回数が71.6%削減されたが、誤差はわずかに5.5%増加した。
パラメータ数および中間特徴マップのサイズをそのままで保存するため、既存のパイプラインへのシームレスな統合が可能である。
張らららら[28]のチャネル間冗長性手法と組み合わせることで、理論的4倍の高速化を達成し、誤差増加はたった1.6%にとどまり、単独で使用する手法を上回る性能を発揮した。
パーソレーション後に微調整を行うことで精度が効果的に回復し、他の手法と組み合わせる際には第二段階で小さな学習率で十分である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。