Skip to main content
QUICK REVIEW

[論文レビュー] Speeding up Convolutional Neural Networks with Low Rank Expansions

Max Jaderberg, Andrea Vedaldi|arXiv (Cornell University)|May 15, 2014
Advanced Neural Network Applications参考文献 32被引用数 543
ひとこと要約

本稿では、クロスチャネルおよびフィルタ冗長性を活用して、フルランクフィルタをランク1の空間的ベースで近似することで、畳み込みニューラルネットワーク(CNN)の推論を高速化する2つの低ランク拡張スキームを提案する。シーンテキスト認識ベンチマークにおいて、最大4.5倍の高速化を達成し、精度低下は1%未満に抑えられ、アーキテクチャの変更なしにリアルタイム推論を実現する。

ABSTRACT

The focus of this paper is speeding up the evaluation of convolutional neural networks. While delivering impressive results across a range of computer vision and machine learning tasks, these networks are computationally demanding, limiting their deployability. Convolutional layers generally consume the bulk of the processing time, and so in this work we present two simple schemes for drastically speeding up these layers. This is achieved by exploiting cross-channel or filter redundancy to construct a low rank basis of filters that are rank-1 in the spatial domain. Our methods are architecture agnostic, and can be easily applied to existing CPU and GPU convolutional frameworks for tuneable speedup performance. We demonstrate this with a real world network designed for scene text character recognition, showing a possible 2.5x speedup with no loss in accuracy, and 4.5x speedup with less than 1% drop in accuracy, still achieving state-of-the-art on standard benchmarks.

研究の動機と目的

  • 事前学習済み畳み込みニューラルネットワーク(CNN)における推論の高い計算コストを軽減すること、特にリアルタイム応用を想定して。
  • 深層ネットワークにおける処理時間を支配する畳み込み層のボトル neck を克服すること。
  • CPU/GPUフレームワークへの最小限の変更で、一般用途で利用可能な、アーキテクチャに依存しない方法を構築すること。
  • 近似の忠実度を制御することで、速度と精度の間で調整可能なトレードオフを実現すること。
  • 実世界の応用として、シーンテキスト文字認識において顕著な高速化を達成しながら、最先端の性能を維持することを示すこと。

提案手法

  • 2つのスキームを提案:スキーム1は水平および垂直方向のランク1フィルタを用いて2次元フィルタバンクを近似する。スキーム2は、水平ベースを経てから垂直方向に組み合わせる2段階のアプローチを採用する。
  • SVDを用いた低ランク近似により、フィルタバンクを分解可能なランク1成分に分解し、計算複雑度を低減する。
  • 2つの最適化戦略を用いる:フィルタ再構築(フィルタ近似誤差の最小化)とデータ再構築(活性化データ上の特徴マップ誤差の最小化)。
  • 標準的な畳み込み演算を用いて近似を実装し、Caffe や GPU/TPU パイプラインといった既存フレームワークとの互換性を確保する。
  • im2col および BLAS 操作を効率的に活用し、スキーム2は3次元畳み込みルーチンに最適化してオーバーヘッドを最小限に抑える。
  • 近似された層をフルネットワークに統合し、ベンチマークタスクでのエンドツーエンドの性能を微調整または評価する。

実験結果

リサーチクエスチョン

  • RQ1CNNにおけるチャネル間およびフィルタ間の冗長性を活用することで、精度の著しい低下を伴わずに計算コストを削減できるか?
  • RQ2分離可能なフィルタとベース分解の異なる低ランク近似スキーム(例:分離可能フィルタ対ベース分解)は、速度向上と再構築忠実度の観点でどのように比較されるか?
  • RQ3特徴マップ誤差を最小化するデータ駆動型最適化は、フィルタ再構築よりも精度維持の観点で優れているとまでは言えるか?
  • RQ4提案手法は、実世界のCNNにおいて顕著な高速化を達成しながら、最先端の性能を維持できるか?
  • RQ5本手法は、異なるネットワーク層やアーキテクチャにどのようにスケーリングできるか。また、他の高速化技術と組み合わせられるか?

主な発見

  • 本手法は、シーンテキスト文字認識ベンチマークにおいて、精度に変化のない2.5倍の高速化、1%の精度低下で4.5倍の高速化を達成し、依然として最先端の性能を達成している。
  • スキーム2は、Caffeの3次元畳み込み最適化との高い互換性のおかげで、理論的再構築誤差が優れているスキーム1よりも実際の推論速度で優れている。
  • データ再構築最適化は、同じ速度向上レベルにおいて、フィルタ再構築よりも低い再構築誤差を達成しており、分布外データでも同様の結果が得られた。
  • 同様のレイヤー構成下で、FFTベースのCNNと比較して、本手法はより高い高速化を達成しており、256個のベースフィルタを用いた場合に2.4倍の実効速度向上を達成した(先行研究では2.2倍)。
  • 従来の低ランク手法に比べ、本手法は優れた性能を示しており、ImageNetでは2倍の理論的高速化でトップ5精度が0.5%低下に抑えられ、先行研究の1.2%を下回っている。
  • 本手法は既存のフレームワークと互換性があり、量子化やハードウェア固有の最適化といった他の高速化技術と組み合わせて利用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。