Skip to main content
QUICK REVIEW

[論文レビュー] N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning

Anubhav Ashok, Nicholas Rhinehart|arXiv (Cornell University)|Sep 18, 2017
Advanced Neural Network Applications参考文献 35被引用数 116
ひとこと要約

この論文は、教師ネットワークを高精度の軽量な学生ネットワークへ自動圧縮するための、2段階の強化学習手法(層の削除→層の縮小)を提案し、ポリシー勾配と知識蒸留を利用します。

ABSTRACT

While bigger and deeper neural network architectures continue to advance the state-of-the-art for many computer vision tasks, real-world adoption of these networks is impeded by hardware and speed constraints. Conventional model compression methods attempt to address this problem by modifying the architecture manually or using pre-defined heuristics. Since the space of all reduced architectures is very large, modifying the architecture of a deep neural network in this way is a difficult task. In this paper, we tackle this issue by introducing a principled method for learning reduced network architectures in a data-driven way using reinforcement learning. Our approach takes a larger `teacher' network as input and outputs a compressed `student' network derived from the `teacher' network. In the first stage of our method, a recurrent policy network aggressively removes layers from the large `teacher' model. In the second stage, another recurrent policy network carefully reduces the size of each remaining layer. The resulting network is then evaluated to obtain a reward -- a score based on the accuracy and compression of the network. Our approach uses this reward signal with policy gradients to train the policies to find a locally optimal student network. Our experiments show that we can achieve compression rates of more than 10x for models such as ResNet-34 while maintaining similar performance to the input `teacher' network. We also present a valuable transfer learning result which shows that policies which are pre-trained on smaller `teacher' networks can be used to rapidly speed up training on larger `teacher' networks.

研究の動機と目的

  • ハードウェア制約を満たすための自動的でデータ駆動のネットワーク圧縮を動機付ける。
  • 教師ネットワークから派生したコンパクトなアーキテクチャを探索する principledなRLフレームワークを開発する。
  • アーキテクチャ空間を効率的に探索するための二段階のアクションスキーム(層削除に続く層縮小)を提示する。
  • 圧縮された学生モデルの訓練に知識蒸留を組み込む。
  • 複数データセットで圧縮の有効性と学習した方策の転移性を示す。

提案手法

  • 教師-学生圧縮をネットワークアーキテクチャ上のマルコフ決定過程として定式化する。
  • 二段階のポリシーネットワークを使用:層削除ポリシー(バイナリで保持/削除)と層縮小ポリシー(層パラメータの連続的減衰)。
  • 報酬R = Rc × Ra で圧縮と精度を組み合わせたREINFORCEポリシー勾配でポリシーを最適化する。
  • Rcはパラメータ数に基づく非線形圧縮報酬、Raは学生の検証精度と教師の比率。
  • Ax ≤ bの緩和を用いてハードウェア制約を報酬条件に組み込み、段階的なペナルティを適用。
  • 教師のロジットを用いた知識蒸留(学生の出力と教師ロジットのL2損失)により学習を導く。

実験結果

リサーチクエスチョン

  • RQ1自動化された強化学習は、より大きな教師ネットワークからの圧縮時に精度を保つコンパクトな学生アーキテクチャを自動的に発見できるか?
  • RQ2二段階のアクション戦略(層削除→層縮小)は現代のアーキテクチャやデータセットにスケールするか?
  • RQ3学習した圧縮方策は類似のアーキテクチャ間または大きな教師間で転移できるか?
  • RQ4ハードウェア制約を報酬に効果的に統合して実用的なモデルを生み出せるか?
  • RQ5教師からの蒸留は圧縮された学生ネットワークの性能を高めるか?

主な発見

ArchitectureAcc.#ParamsΔ Acc.Compr.
教師 (MNIST/VGG-13)99.54%9.4M
学生(ステージ1)99.55%73K+0.01%127x
教師 (CIFAR-10/VGG-19)91.97%20.2M
学生(ステージ1)92.05%1.7M+0.08%11.8x
学生(ステージ1+ステージ2)91.64%984K+ -0.33%20.53x
教師 (ResNet-18)92.01%11.17M
学生(ステージ1)91.97%2.12M-0.04%5.26x
学生(ステージ1+ステージ2)91.81%1.00M-0.20%11.10x
教師 (ResNet-34)92.05%21.28M
学生(ステージ1)93.54%3.87M+1.49%5.5x
学生(ステージ1+ステージ2)92.35%2.07M+0.30%10.2x
教師 (SVHN/ResNet-18)95.24%11.17M
学生(ステージ1)95.66%2.24M+0.42%4.97x
学生(ステージ1+ステージ2)95.38%564K+0.18%19.8x
教師 (CIFAR-100/ResNet-18)72.22%11.22M
学生(ステージ1)69.64%4.76M-2.58%2.35x
学生(ステージ1+ステージ2)68.01%2.42M-4.21%4.64x
教師 (ResNet-34/CIFAR-100)72.86%21.33M
学生(ステージ1)70.11%4.25M-2.75%5.02x
学生(ステージ1+ステージ2)92.35%2.07M+0.30%10.2x
教師 (Caltech-256/ResNet-18)47.65%11.31M
学生(ステージ1)44.71%3.62M-2.94%3.12x
  • ResNet-34 などのモデルで高い圧縮を達成しつつ教師に近い精度を維持できた。
  • 二段階の方策学習により macro(層削除)と micro(層縮小)決定を分離して探索を加速。
  • 小さな教師で学んだ方策が大きな教師へ転移し、新しい設定での訓練を加速。
  • 複数データセット(MNIST, CIFAR-10/100, SVHN, Caltech-256)で剪定や手作り知識蒸留ベースラインを上回った。
  • ハードウェア制約を持つ報酬により、サイズ制約下で実用的なモデルが得られ、実用性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。