Skip to main content
QUICK REVIEW

[論文レビュー] Pruning Convolutional Neural Networks for Resource Efficient Transfer Learning.

Pavlo Molchanov, Stephen Tyree|arXiv (Cornell University)|Nov 19, 2016
Domain Adaptation and Few-Shot Learning被引用数 310
ひとこと要約

本稿では、勾配逆伝播による微調整とグリーディな pruning を入れ替えながら、畳み込みニューラルネットワークにおける効率的な転移学習を可能にする、テイラー展開に基づく pruning 基準を提案する。従来のノルムベースや活性化ベースの基準よりも優れた性能を発揮し、ジェスチャー認識タスクにおいては 10 倍の理論的(5 倍の実用的)なパラメータ削減を実現しつつ、精度の低下を最小限に抑え、ImageNet や Flowers-102、Birds-200 データセットにおいても高い結果を達成する。

ABSTRACT

We propose a new formulation for pruning convolutional kernels in neural networks to enable efficient inference. We interleave greedy criteria-based pruning with fine-tuning by backpropagation - a computationally efficient procedure that maintains good generalization in the pruned network. We propose a new criterion based on Taylor expansion that approximates the change in the cost function induced by pruning network parameters. We focus on transfer learning, where large pretrained networks are adapted to specialized tasks. The proposed criterion demonstrates superior performance compared to other criteria, e.g. the norm of kernel weights or feature map activation, for pruning large CNNs after adaptation to fine-grained classification tasks (Birds-200 and Flowers-102) relaying only on the first order gradient information. We also show that pruning can lead to more than 10x theoretical (5x practical) reduction in adapted 3D-convolutional filters with a small drop in accuracy in a recurrent gesture classifier. Finally, we show results for the large-scale ImageNet dataset to emphasize the flexibility of our approach.

研究の動機と目的

  • 大規模な事前学習済み CNN を用いた転移学習における高い計算コストとメモリ使用量の課題に対処すること。
  • モデルの精度を維持しつつ、推論のための効率を高めるために、モデルサイズを顕著に削減する pruning 法を開発すること。
  • 重みノルムや活性化の大きさといった従来の pruning 基準を改善するため、テイラー展開を用いて一次の勾配情報を利用する。
  • 2D および 3D 畳み込みネットワーク、特に繰り返しジェスチャー分類器や大規模な ImageNet モデルにおいて、効果的な pruning を可能にすること。
  • 提案手法の柔軟性とスケーラビリティを、多様な転移学習タスクとネットワークアーキテクチャにおいて実証すること。

提案手法

  • パラメータ削除に伴う損失関数の変化を近似するため、テイラー展開に基づく新しい pruning 基準を提案する。
  • 一般化性能を維持するために、グリーディなカーネル pruning と勾配逆伝播に基づく微調整を交互に実行する。
  • 2 階微分の計算が高価であるのを避けるために、一次の勾配情報(つまり、勾配の大きさ)のみを用いてテイラー基準を計算する。
  • 性能を維持したまま、重要度の低いフィルタを段階的に削除するため、pruning と微調整の手順を繰り返し適用する。
  • 細分化画像分類などの特殊なタスクに特化して微調整される大規模な事前学習済みネットワークを想定した転移学習のシナリオに焦点を当てる。
  • 動画や順序データ向けの 3D 畳み込みネットワークに対してもこの手法を拡張し、スケーラビリティと効率性の向上を実証する。

実験結果

リサーチクエスチョン

  • RQ1一次のテイラー展開に基づく基準は、従来の重みノルムや活性化の大きさといった基準よりも、転移学習において優れた性能を発揮できるか?
  • RQ2順序データ向けの 3D 畳み込みネットワークにおいて、精度を劣化させずにどの程度モデルサイズを削減できるか?
  • RQ3微調整後に適用された場合、提案手法は ImageNet のような大規模ベンチマークでどの程度有効か?
  • RQ4勾配逆伝播による微調整と pruning を入れ替えることで、静的 pruning よりもモデルの一般化性能をより効果的に維持できるか?
  • RQ5多様な転移学習タスクにおいて、パラメータ数を顕著に圧縮(例:10 倍)しつつも、高い精度を維持できるか?

主な発見

  • 提案されたテイラー展開に基づく pruning 基準は、Birds-200 や Flowers-102 データセットにおける微調整後の大規模 CNN の pruning において、重みノルムや活性化の大きさに基づく基準を上回る性能を発揮した。
  • 本手法により、繰り返しジェスチャー分類器の 3D 畳み込みフィルタにおいて、理論的には 10 倍以上、実用的には 5 倍以上のパラメータ削減が可能となり、精度の低下はわずかであった。
  • 大規模な ImageNet データセットにおいても、本手法は強力な性能を維持しており、異なるアーキテクチャやタスクにわたる柔軟性とスケーラビリティを実証した。
  • テイラー展開による一次勾配情報に基づく pruning は、計算コストが低く抑えられつつ、競争力のある精度を達成した。
  • pruning と微調整を交互に実行する手順により、モデルの一般化性能が効果的に維持され、激しい圧縮後でも高精度なモデルが得られた。
  • 結果から、本手法が細分化分類や動画ベースの順序モデリングを含む多様な転移学習シナリオにおいて有効であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。