QUICK REVIEW

[論文レビュー] Building Efficient ConvNets using Redundant Feature Pruning

Babajide O. Ayinde, Jacek M. Żurada|arXiv (Cornell University)|Feb 21, 2018

Advanced Neural Network Applications参考文献 21被引用数 50

ひとこと要約

本研究は、アグロメーティブ階層的クラスタリングに基づく剪定法を提案し、冗長なフィルタとそれらの特徴マップを除去することで、CIFAR-10モデルの推論 FLOPを最大約40%削減しつつ競合的な精度を維持します。剪定後の再学習はハイパーパラメータを変更せずに性能を回復するのに役立ちます。

ABSTRACT

This paper presents an efficient technique to prune deep and/or wide convolutional neural network models by eliminating redundant features (or filters). Previous studies have shown that over-sized deep neural network models tend to produce a lot of redundant features that are either shifted version of one another or are very similar and show little or no variations; thus resulting in filtering redundancy. We propose to prune these redundant features along with their connecting feature maps according to their differentiation and based on their relative cosine distances in the feature space, thus yielding smaller network size with reduced inference costs and competitive performance. We empirically show on select models and CIFAR-10 dataset that inference costs can be reduced by 40% for VGG-16, 27% for ResNet-56, and 39% for ResNet-110.

研究の動機と目的

ネットワークのサイズと推論コストの削減を、重み空間/活性化空間で非常に類似している冗長な特徴（フィルタ）をターゲットにすることで、過剰にパラメータ化されたCNNで動機づける。
類似性に基づいてフィルタをクラスタにグループ化し、冗長なクラスタを丸ごと排除し、関連する特徴マップを含めて一度に剪定するワンショット剪定戦略を提案する。
剪定がFLOPsを大幅に削減しつつ精度を維持できることを示し、性能回復には再学習が必要である。
冗長性を考慮した剪定が既存のフィルタ剪定手法と比較して現実的な指針と実証的証拠を提供する。

提案手法

各レイヤのフィルタを特徴ベクトルとして表現する（W^(l) の列）。
フィルタ間の距離を定義するために対角線上以外のコサイン類似度を計算する。
階層的凝集クラスタリングを適用し、クラスタ間の平均類似度がしきい値 tau を下回るまで最も類似したフィルタグループを統合する。
クラスタごとに代表フィルタを1つ残す（または望ましい剪定数に達するよう十分なフィルタを剪定）ことで、次のレイヤの対応する特徴マップと重みとともにすべてのフィルタを剪定する。
削減されたフィルタ集合を反映するよう、l-thおよび(l+1)-thレイヤのカーネル行列を更新する。
元のハイパーパラメータを変更せずに、短期間の再学習を行い精度を回復する。

実験結果

リサーチクエスチョン

RQ1人気のあるCNN アーキテクチャにおける冗長なフィルタを同定し、再学習の回復を超えて性能を低下させずに除去できるか。
RQ2CIFAR-10 での VGG-16 および ResNet 系モデルで、冗長な特徴を剪定することで推論コスト（FLOPs）をどれだけ削減できるか。
RQ3特徴冗長性に基づく剪定は、Li et al. (2017) のような振幅ベース剪定手法よりこれらのモデルで優れているか。
RQ4剪定の順序と閾値 tau が剪定の効果と最終的な精度に与える影響は？
RQ5剪定後の再学習は、ゼロからの剪定よりも精度を回復・向上させるのに十分か、そしてそれは scratch からの剪定とどう比較されるか。

主な発見

Model	Error %	FLOP	Pruned %	# Parameters	Pruned %
VGG-16	6.20	3.13×10^8		1.47×10^7
VGG-16-pruned (Li et al., 2017)	6.60	2.06×10^8	34.2%	5.4×10^6	64.0%
VGG-16-pruned-A (this work)	6.33	1.86×10^8	40.5%	3.23×10^6	78.1%
VGG-16-pruned-B (this work)	6.70	1.86×10^8	40.5%	3.23×10^6	78.1%
ResNet-56	6.61	1.25×10^8		8.5×10^5
ResNet-56 pruned (Li et al., 2017)	6.94	9.09×10^7	27.6%	7.3×10^5	13.7%
ResNet-56 pruned-A (this work)	6.88	9.07×10^7	27.9%	6.5×10^5	23.7%
ResNet-56 pruned-B (this work)	6.94	9.07×10^7	27.9%	6.5×10^5	23.7%
ResNet-110	6.35	2.53×10^8		1.72×10^6
ResNet-110 pruned (Li et al., 2017)	6.70	1.55×10^8	38.6%	1.16×10^6	32.4%
ResNet-110 pruned-A (this work)	6.73	1.54×10^8	39.1%	1.13×10^6	34.2%
ResNet-110 pruned-B (this work)	7.41	1.54×10^8	39.1%	1.13×10^5	34.2%

tau = 0.54 による VGG-16 の剪定は、パラメータ剪定 >78%、FLOP削減約40%、競合的な精度。
ResNet-56 の剪定は約27.9% の FLOP 削減を達成し、再学習後のパラメータ剪定と精度が Li et al. (2017) より改善。
ResNet-110 の剪定は約39.1% の FLOP 削減を達成し、同様のパラメータ剪定だが再学習後の精度は一部ケースで Li et al. (2017) よりやや低いことがある。
モデルをまたいで、剪定は後半の層をより積極的に対象とするほど効果的である一方、初期層は剪定に対して敏感で慎重なしきい値が必要。
推論時間の削減はFLOP削減とほぼ一致しており、CIFAR-10 のテスト実行で実質的な速度向上が報告されている（Table 3）。
プリトレーニング済みモデルからの剪定と再学習は、Scratch からの剪定より通常は良い結果をもたらす（Table 4）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。