Skip to main content
QUICK REVIEW

[論文レビュー] Speeding-up Convolutional Neural Networks Using Fine-tuned CP-Decomposition

Vadim Lebedev, Yaroslav Ganin|arXiv (Cornell University)|Dec 19, 2014
Tensor decomposition and applications参考文献 15被引用数 331
ひとこと要約

本稿では、4次元畳み込みカーネルテンソルに対して非線形最小二乗法(NLS)に基づくCP分解を適用することで、畳み込みニューラルネットワーク(CNN)の推論を高速化する2段階手法を提案する。各層を4つの小さなカーネルを持つ畳み込み層の系列に置き換える。36クラスの文字分類ネットワークでは最大8.5倍のCPU高速化を達成し、精度は1%低下(91%から90%)にとどまる。AlexNetでは4倍の高速化を実現し、トップ5誤差は1%増加するが、従来手法に比べて速度-精度のトレードオフが優れている。微調整により性能が回復・向上する。

ABSTRACT

We propose a simple two-step approach for speeding up convolution layers within large convolutional neural networks based on tensor decomposition and discriminative fine-tuning. Given a layer, we use non-linear least squares to compute a low-rank CP-decomposition of the 4D convolution kernel tensor into a sum of a small number of rank-one tensors. At the second step, this decomposition is used to replace the original convolutional layer with a sequence of four convolutional layers with small kernels. After such replacement, the entire network is fine-tuned on the training data using standard backpropagation process. We evaluate this approach on two CNNs and show that it is competitive with previous approaches, leading to higher obtained CPU speedups at the cost of lower accuracy drops for the smaller of the two networks. Thus, for the 36-class character classification CNN, our approach obtains a 8.5x CPU speedup of the whole network with only minor accuracy drop (1% from 91% to 90%). For the standard ImageNet architecture (AlexNet), the approach speeds up the second convolution layer by a factor of 4x at the cost of $1\%$ increase of the overall top-5 classification error.

研究の動機と目的

  • 低価格CPUやモバイルデバイスへの大規模畳み込みニューラルネットワーク(CNN)の展開を可能にするために、計算コストとメモリコストを低減すること。
  • 畳み込み層のパラメータ数を顕著に削減する一方で、高い精度を維持する課題に対処すること。
  • より正確な分解手法と判別的微調整を用いることで、従来のテンソル分解手法を改善すること。
  • 低ランクCP分解とグローバル微調整を組み合わせることで、従来の手法よりも優れた速度-精度トレードオフを達成できることを示すこと。
  • 実世界のCNNアーキテクチャ、特にカスタム文字分類器とImageNetスケールのAlexNetに対して、本手法の有効性を検証すること。

提案手法

  • 4次元畳み込みカーネルテンソルの低ランクCP分解を、非線形最小二乗法(NLS)を用いて実行し、ランク1テンソルの和に分解する。
  • 各元の畳み込み層を、CP成分から導出された小さな2次元カーネルを用いる4つのディープワイズ風畳み込み層の系列に置き換える。
  • 層置換後、標準的なバックプロパゲーションを用いてネットワーク全体を微調整し、精度を回復・向上させる。
  • CNNカーネルのテンソル代数的構造を活用することで、カスタム層の実装を必要とせず、効率的な分解と層置換を可能にする。
  • CP分解のランクをハイパーパrameterとして用い、高速化と精度損失のトレードオフを制御する。
  • NLSベースの分解の性能を、グリーディアルゴリズムやランダム初期化と比較し、高品質な初期化の重要性を示す。

実験結果

リサーチクエスチョン

  • RQ14次元畳み込みカーネルのNLSベースCP分解は、CNNにおいてグリーディ分解手法よりも優れた速度-精度トレードオフを達成できるか?
  • RQ2CP分解後の置換処理に判別的微調整を適用することで、非微調整近似と比較して精度が顕著に向上するか?
  • RQ3本手法は、従来のテンソル分解に基づくアプローチを上回る高速化を達成できるか? ただし、精度は維持または向上させる。
  • RQ4初期CP分解の品質(例:NLS対グリーディ)が、微調整後の最終性能にどのように影響するか?
  • RQ5本手法は、空間的に変化するカーネルを持つ層において、パrameter数とメモリフットプリントをどの程度削減できるか?

主な発見

  • NLSベースのCP分解手法は、36クラスの文字分類CNNにおいて最大8.5倍のCPU高速化を達成し、精度は1%低下(91%から90%)にとどまった。
  • AlexNetアーキテクチャでは、2番目の畳み込み層が4倍高速化され、トップ5分類誤差は1%増加した。これは、実世界応用において強い実用性を示している。
  • NLSベースの分解は一貫してグリーディ分解を上回り、一部のケースでは精度低下を最大20ポイントも削減した(例:R=300でAlexNetでグリーディでは24.15%低下、NLSでは3.21%低下)。
  • 微調整は性能向上に顕著に寄与し、特にNLSによる高品質な初期化と組み合わせると、より良い収束が得られることを確認した。
  • 近似された層のパラメータ数は数倍に削減され、メモリ制限のある環境に適したよりコンactなモデル実現が可能になった。
  • 本手法は正則化効果を示し、高ランクの分解では一般化性能が向上する場合もあり、空間的に変化するカーネルを持つ層への応用可能性も示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。