QUICK REVIEW

[論文レビュー] Discrimination-aware Channel Pruning for Deep Neural Networks

Zhuangwei Zhuang, Mingkui Tan|arXiv (Cornell University)|Oct 28, 2018

Advanced Neural Network Applications参考文献 44被引用数 162

ひとこと要約

Discrimination-aware Channel Pruning (DCP) は中間層で discrimination-aware losses を導入し、チャンネル剪定をガイドすることで、識別力と特徴マップ再構成の両立を図り、ImageNet および CIFAR データセットにおける指定された剪定率で精度が向上することを示す。

ABSTRACT

Channel pruning is one of the predominant approaches for deep model compression. Existing pruning methods either train from scratch with sparsity constraints on channels, or minimize the reconstruction error between the pre-trained feature maps and the compressed ones. Both strategies suffer from some limitations: the former kind is computationally expensive and difficult to converge, whilst the latter kind optimizes the reconstruction error but ignores the discriminative power of channels. To overcome these drawbacks, we investigate a simple-yet-effective method, called discrimination-aware channel pruning, to choose those channels that really contribute to discriminative power. To this end, we introduce additional losses into the network to increase the discriminative power of intermediate layers and then select the most discriminative channels for each layer by considering the additional loss and the reconstruction error. Last, we propose a greedy algorithm to conduct channel selection and parameter optimization in an iterative way. Extensive experiments demonstrate the effectiveness of our method. For example, on ILSVRC-12, our pruned ResNet-50 with 30% reduction of channels even outperforms the original model by 0.39% in top-1 accuracy.

研究の動機と目的

層間で再構成誤差のみを最小化するだけでなく、識別力を保持することで効率的なチャンネル剪定を動機づける。
局所的な識別表現を高めるために中間層に挿入された discrimination-aware losses を導入する。
0-ノルムの近似である 2,0-norm を用いた制約付きチャンネル選択問題を定式化し、貪欲法で解く。
DCP が同程度の剪定率で最先端の剪定手法よりも、あるいは同等の精度を達成することを示す。
大規模データセット（ILSVRC-12）と小規模データセット（CIFAR-10、LFW）の両方で手法の有効性を実証する。

提案手法

選択された中間層に複数の discrimination-aware losses を挿入して識別力を高める。
再構成損失と discrimination-aware loss を joint objective L(W)=L_M(W)+λ L_S^p(W) によってバランスする。
チャンネル剪定を 2,0-norm の制約付き最適化として定式化し、勾配の大きさに基づいて逐次的にチャンネルを選択する貪欲アルゴリズムで解く。
段階的に剪定を実施：識別力損失で微調整した後、対応する段の層を L_S^p と L_M の両方を用いて剪定する。
2 段階の貪欲手法を採用： (i) チャンネルごとの勾配ノルムを最大化してチャンネルを選択、 (ii) Complement をゼロにした状態で選択チャンネルの下で W を SGD で最適化。
各層ごとに剪定レベルを自動決定するため、相対的な損失改善を基準とした停止条件を採用する。

実験結果

リサーチクエスチョン

RQ1中間層の discrimination-aware losses は、再構成ベースの基準を超えて真に識別力を持つチャンネルを信頼できず識別できるのか。
RQ2再構成損失と discrimination-aware losses を組み合わせることで、深層ネットワークの剪定性能は既存手法と比べて向上するのか。
RQ3DCP はアーキテクチャ（ResNet-18/50、VGGNet）およびデータセット（CIFAR-10、ILSVRC-12、LFW）で、さまざまな剪定率においてどのように性能を示すのか。
RQ4λ のトレードオフパラメータと停止条件が剪定結果と精度へどのような影響を与えるのか。

主な発見

DCP で剪定された ResNet-50 は ILSVRC-12 でチャネルを 30%削減してもベースラインより Top-1 精度を 0.39% 向上。
ResNet-50 を 50% 剪定した場合、DCP は ThiNet を Top-1 で 0.81%、Top-5 で 0.51% 上回る。
CIFAR-10 では、DCP は VGGNet および ResNet-56 の複数のベースラインよりも精度が向上し、パラメータ数/ FLOPs の削減も大きい。
CIFAR-10 における DCP-剪定 MobileNet 系は、乱択剪定およびベースライン手法よりも 30% チャンネル剪定時に精度が向上。
LFW 実験では、剪定された SphereNet-4 モデルがパラメータと FLOPs を大幅に削減しつつ競争力のある精度を達成（例：98.30% LFW 精度で 3.66x のスピードアップ）。
アブレーション研究は、より大きな λ（ discrimination-aware losses を強調）が一般的に剪定性能を向上させ、停止条件が剪定レベルを効果的に決定することを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。