[論文レビュー] Towards Optimal Structured CNN Pruning via Generative Adversarial Learning
本論文は Generative Adversarial Learning(GAL)を提案し、エンドツーエンドでラベルなしの方法で CNN を剪定します。疎なソフトマスクを学習して、チャネル、ブランチ、ブロックを同時に剪定することで、強力な圧縮と高速化を実現します。
Structured pruning of filters or neurons has received increased focus for compressing convolutional neural networks. Most existing methods rely on multi-stage optimizations in a layer-wise manner for iteratively pruning and retraining which may not be optimal and may be computation intensive. Besides, these methods are designed for pruning a specific structure, such as filter or block structures without jointly pruning heterogeneous structures. In this paper, we propose an effective structured pruning approach that jointly prunes filters as well as other structures in an end-to-end manner. To accomplish this, we first introduce a soft mask to scale the output of these structures by defining a new objective function with sparsity regularization to align the output of baseline and network with this mask. We then effectively solve the optimization problem by generative adversarial learning (GAL), which learns a sparse soft mask in a label-free and an end-to-end manner. By forcing more scaling factors in the soft mask to zero, the fast iterative shrinkage-thresholding algorithm (FISTA) can be leveraged to fast and reliably remove the corresponding structures. Extensive experiments demonstrate the effectiveness of GAL on different datasets, including MNIST, CIFAR-10 and ImageNet ILSVRC 2012. For example, on ImageNet ILSVRC 2012, the pruned ResNet-50 achieves 10.88\% Top-5 error and results in a factor of 3.7x speedup. This significantly outperforms state-of-the-art methods.
研究の動機と目的
- 多段階のレイヤー単位の手法と比較して、効率的でスラックがあり、ラベル不要な構造化剪定を提案・動機づける。
- CNN の異種構造を疎にする・剪定するためのソフトマスクフレームワークを提案する。
- 識別器と FISTA を活用したエンドツーエンドの GAL 最適化を開発し、冗長な構造を除去する。
提案手法
- 剪定可能な構造(チャネル、ブランチ、ブロック)の出力をスケールする疎なソフトマスク m を導入する。
- 生成器(剪定ネットワーク)と識別器を用いた敵対的目的を定式化し、剪定後の出力をベースライン出力と一致させる(データ損失は MSE)。
- 交互に GAN+FISTA を適用して最適化を解く:識別器を SGD で更新し、m に対する L1 スパース性を用いて FISTA で剪定。
- m に対する L1 スパースペナルティを用い、m_i → 0 のとき構造を削除可能にする。
- 重みと識別器に対して正則化(L1/L2 や対立的正則化)を適用し、ゲームのバランスを取る。
- 剪定のために正確なゼロマスクエントリを効率的に得るためFISTAを用いる。
実験結果
リサーチクエスチョン
- RQ1ソフトで学習可能なマスクは、エンドツーエンドかつラベルなしの方法で、異種の CNN 構造(チャネル、ブランチ、ブロック)を同時に剪定できるか。
- RQ2L1 スパースマスクとFISTAを用いた生成対向学習は、従来の多段階剪定と比べて圧縮率と精度維持の点で優れているか。
- RQ3GAL はデータセット(MNIST、CIFAR-10、ImageNet)およびアーキテクチャ(LeNet、VGG、DenseNet、GoogLeNet、ResNet、DenseNet-40、ResNet 系)でどのように性能を発揮するか。
主な発見
- ImageNet で GAL による剪定 ResNet-50 は 10.88% の Top-5 エラーと 3.7× のスピードアップを達成。
- GAL は MNIST、CIFAR-10、ImageNet において、異なる構造(チャネル、ブランチ、ブロック)で強力な剪定効率を示す。
- アブレーション研究では、識別器上の対向正則化がL1/L2より優れており、剪定効果を向上させる。
- ResNet-50 でのブロックとチャネルの共同剪定(GAL-0.5-joint)は、ブロック単独またはチャネル単独の剪定より高速化と圧縮が高い。
- GAL は複数のネットワークとデータセットでしばしば最先端の剪定法と同等かそれを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。