[論文レビュー] Deep Model Compression via Deep Reinforcement Learning.
本稿では、畳み込みニューラルネットワーク(CNN)向けに、層別チャネルプルーニングとキーネル別変動プルーニングを組み合わせてFLOPsとモデルサイズを低減し、その後にDRL最適化の量子化を適用することで、各層あたりのビット幅を最小化する、深層強化学習(DRL)に基づく2段階のモデル圧縮フレームワークを提案する。この手法により、CIFAR-10でVGGNetを9倍圧縮し、精度を0.2%向上させ、ImageNetでVGG-16を33倍圧縮しても精度に損失がない。
Besides accuracy, the storage of convolutional neural networks (CNN) models is another important factor considering limited hardware resources in practical applications. For example, autonomous driving requires the design of accurate yet fast CNN for low latency in object detection and classification. To fulfill the need, we aim at obtaining CNN models with both high testing accuracy and small size/storage to address resource constraints in many embedded systems. In particular, this paper focuses on proposing a generic reinforcement learning based model compression approach in a two-stage compression pipeline: pruning and quantization. The first stage of compression, i.e., pruning, is achieved via exploiting deep reinforcement learning (DRL) to co-learn the accuracy of CNN models updated after layer-wise channel pruning on a testing dataset and the FLOPs, number of floating point operations in each layer, updated after kernel-wise variational pruning using information dropout. Layer-wise channel pruning is to remove unimportant kernels from the input channel dimension while kernel-wise variational pruning is to remove unimportant kernels from the 2D-kernel dimensions, namely, height and width. The second stage, i.e., quantization, is achieved via a similar DRL approach but focuses on obtaining the optimal weight bits for individual layers. We further conduct experimental results on CIFAR-10 and ImageNet datasets. For the CIFAR-10 dataset, the proposed method can reduce the size of VGGNet by 9x from 20.04MB to 2.2MB with 0.2% accuracy increase. For the ImageNet dataset, the proposed method can reduce the size of VGG-16 by 33x from 138MB to 4.14MB with no accuracy loss.
研究の動機と目的
- 自動運転車などのリソース制約のある組み込みシステムに、正確かつコンパクトなCNNを導入する課題に対処すること。
- テスト精度を損なわず、モデルサイズとFLOPsを低減することで、低遅延およびストレージ要件を満たすこと。
- プルーニングと量子化の両ステージにおいて、深層強化学習を用いた汎用的でエンドツーエンドの圧縮パイプラインを開発すること。
- 強化学習を用いて、自動的かつ層ごとの最適化を実現し、プルーニングとビット幅選択を段階的に最適化すること。
- 標準ベンチマークで高い圧縮比を達成するとともに、精度を維持またはわずかに向上させること。
提案手法
- 層別チャネルプルーニングの過程で、重要でないカーネルを入力チャネル次元に沿って削除することで、深層強化学習を用いてモデル精度とFLOPsを同時に学習する。
- 情報ドロップアウトを用いたキーネル別変動プルーニングを適用し、2次元キーネル次元(高さと幅)に沿って冗長なフィルタを削除する。
- 別個のDRLエージェントを用いて、精度を維持しつつビット幅を最小化する各層ごとの最適なビット数を決定する。
- バリデーションセット上でDRLエージェントを訓練し、プルーニングおよび量子化の両ステージにおいて、精度保持とモデル圧縮のバランスを取る。
- 2段階のパイプラインを設計:まずチャネルおよびキーネル別削除によるプルーニングを行い、次にビット幅最適化による量子化を実行し、両者をDRLでガイドする。
- 精度とFLOPs(またはモデルサイズ)を組み合わせた報酬関数を用い、DRLエージェントが効率的で高性能なモデル圧縮を指向するようにする。
実験結果
リサーチクエスチョン
- RQ1構造的プルーニングの過程で、深層強化学習がモデル精度とFLOPsを効果的に同時に最適化できるか。
- RQ2DRLに基づくプルーニングは、モデルサイズと計算コストを低減しつつ、精度を保持または向上できるか。
- RQ3DRLを用いて、量子化における各層ごとの最適なビット幅を自動的に特定できるか。圧縮と精度のバランスを取れるか。
- RQ4CIFAR-10やImageNetのような標準ベンチマークで、どのような圧縮比と精度のトレードオフが達成できるか。
- RQ5提案された2段階DRLパイプラインは、従来の手作業またはヒューリスティックな圧縮手法に比べ、モデルサイズと精度の点で優れているか。
主な発見
- CIFAR-10データセットでは、提案手法によりVGGNetのサイズを20.04MBから2.2MBに圧縮し、9倍の圧縮比を達成した。精度は0.2%向上した。
- ImageNetデータセットでは、VGG-16のサイズを138MBから4.14MBに圧縮し、33倍の圧縮比を達成したが、精度に損失はなかった。
- DRLに基づくプルーニング戦略は、チャネルおよびキーネル次元の両方において重要でないフィルタを効果的に特定・削除し、性能を劣化させることなくFLOPsを削減した。
- DRLドリブンの量子化プロセスは、各層の最適なビット幅を成功裏に特定し、モデルサイズを最小限に抑えつつ高い精度を維持した。
- 2段階の圧縮パイプラインは、異なるネットワークアーキテクチャおよびデータセットに対して優れた一般化性能を示した。
- 本手法は、サイズ削減および精度保持の点で、従来の圧縮技術を著しく上回る最先端の圧縮効率を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。