[論文レビュー] Network Pruning via Transformable Architecture Search
本論文は、Transformable Architecture Search (TAS) を用いて、微分可能 NAS によって最適な幅(チャネル)と深さ(レイヤー)を学習することでネットワークを剪算し、チャンネル単位の補間を用いて複数サイズの特徴マップを統合し、未剪算のネットワークから剪算後のネットワークへの知識転送(KD)を行う。CIFAR-10/100 および ImageNet の実験は、従来の剪算法よりも改善を示す。
Network pruning reduces the computation costs of an over-parameterized network without performance damage. Prevailing pruning algorithms pre-define the width and depth of the pruned networks, and then transfer parameters from the unpruned network to pruned networks. To break the structure limitation of the pruned networks, we propose to apply neural architecture search to search directly for a network with flexible channel and layer sizes. The number of the channels/layers is learned by minimizing the loss of the pruned networks. The feature map of the pruned network is an aggregation of K feature map fragments (generated by K networks of different sizes), which are sampled based on the probability distribution.The loss can be back-propagated not only to the network weights, but also to the parameterized distribution to explicitly tune the size of the channels/layers. Specifically, we apply channel-wise interpolation to keep the feature map with different channel sizes aligned in the aggregation procedure. The maximum probability for the size in each distribution serves as the width and depth of the pruned network, whose parameters are learned by knowledge transfer, e.g., knowledge distillation, from the original networks. Experiments on CIFAR-10, CIFAR-100 and ImageNet demonstrate the effectiveness of our new perspective of network pruning compared to traditional network pruning algorithms. Various searching and knowledge transfer approaches are conducted to show the effectiveness of the two components. Code is at: https://github.com/D-X-Y/NAS-Projects.
研究の動機と目的
- ネットワーク pruning を動機づけ、過剰パラメータ化されたCNN で精度を損なうことなく計算を削減する。
- NAS を用いて手作業で固定された構造からネットワークサイズの学習へ pruning をシフトする。
- コスト制約の下で幅と深さを最適化して計算予算を尊重する。
- 未剪算ネットワークから剪算アーキテクチャへの知識転送を活用する。
- CIFAR-10/100、ImageNet という複数データセットとアーキテクチャに対する一般性を示す。
提案手法
- per-layer のチャネル数と per-stage の深さを微分可能なアーキテクチャパラメータで探索するために TAS を導入する。
- 候補チャネル数とレイヤー数に学習可能な分布を付与し、Backpropagation を可能にするために Gumbel-Softmax で最適化する。
- チャネルごとの補間(CWI)と、サンプルされたサイズに導かれた重み付き和を用いて、複数サイズの特徴マップの断片を集約する。
- 深さに対する集約として最終出力を計算し、幅(alpha)と深さ(beta)パラメータの両方に対してバックプロップする。
- 検証損失に計算コスト項を導入し、ターゲット FLOPs を満たすことを促す、区分的コスト関数を用いる。
- 未剪算ネットワークから剪算アーキテクチャへ知識転送(KD)を用いて剪算性能を向上させる。
実験結果
リサーチクエスチョン
- RQ1 pruning のためにネットワークサイズ(幅と深さ)を直接最適化する NAS が可能か、単なるトポロジー以上の効果を出せるか。
- RQ2コスト意識のある目的関数での幅/深さの微分可能なサンプリングは、優れた剪算アーキテクチャを生み出すか。
- RQ3未剪算モデルからの知識転送は、剪算ネットワークの性能に有益か。
- RQ4サンプリング戦略と特徴マップの整列(CWI)が NAS の有効性にどう影響するか。
- RQ5TAS によるアーキテクチャは CIFAR および ImageNet で従来の剪算法や他の NAS ベースラインと比較してどうか。
主な発見
- TAS と KD は、CIFAR-10/100 および ImageNet で従来の方法より剪算性能を一貫して改善する。
- 幅と深さの両方を探索すると、単独で探索するより同等の FLOPs で精度が向上する。
- 未剪算ネットワークからの知識転送(KD)は、実験全体で剪算ネットワークの精度を高める。
- チャネル単位の補間と微分可能なアーキテクチャパラメータを用いることで、複数サイズの特徴マップの整列と集約が効果的に行える。
- 最先端の剪算法と比較して、 TAS は複数の ResNet 変種とデータセットで、同等または低い FLOPs でより高い精度を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。