Skip to main content
QUICK REVIEW

[論文レビュー] AMC: AutoML for Model Compression and Acceleration on Mobile Devices

Yihui He, Ji Lin|arXiv (Cornell University)|Feb 10, 2018
Machine Learning and Data Classification参考文献 92被引用数 366
ひとこと要約

AMC は強化学習(DDPG)を用いて層ごとの圧縮ポリシーを自動的に学習し、手作業の手法よりも精度/レイテンシのトレードオフが良く、モバイルと GPU ハードウェアで顕著な高速化を実現します。

ABSTRACT

Model compression is a critical technique to efficiently deploy neural network models on mobile devices which have limited computation resources and tight power budgets. Conventional model compression techniques rely on hand-crafted heuristics and rule-based policies that require domain experts to explore the large design space trading off among model size, speed, and accuracy, which is usually sub-optimal and time-consuming. In this paper, we propose AutoML for Model Compression (AMC) which leverage reinforcement learning to provide the model compression policy. This learning-based compression policy outperforms conventional rule-based compression policy by having higher compression ratio, better preserving the accuracy and freeing human labor. Under 4x FLOPs reduction, we achieved 2.7% better accuracy than the handcrafted model compression policy for VGG-16 on ImageNet. We applied this automated, push-the-button compression pipeline to MobileNet and achieved 1.81x speedup of measured inference latency on an Android phone and 1.43x speedup on the Titan XP GPU, with only 0.1% loss of ImageNet Top-1 accuracy.

研究の動機と目的

  • レイテンシとリソース制約の下でモバイル機器上にニューラルネットワークを効率的にデプロイする動機づけ。
  • ハードウェア予算の下で精度を最大化するための各層の圧縮ポリシーの探索を自動化する。
  • この手法の一般性をネットワーク(VGG、ResNet、MobileNet)とタスク(分類から検出まで)に跨って示す。
  • リソース制約と精度保証の二つの報酬スキームを提供する。

提案手法

  • モデル圧縮を層ごとの連続的アクション制御問題として枠組み化する。
  • DDPG エージェントは 11-feature 層埋め込みを処理して、(0,1] の正確なスパース比 a_t を出力する。
  • 圧縮は各層ごとに行われ、最終的な精度を素早く推定するためのファインチューニングを行わない。
  • 報酬は精度とハードウェア指標(FLOPs またはパラメータ)を組み合わせ、2つのプロトコルを定義する:リソース制約と精度保証。
  • 評価は事前学習済みネットワークを用い、ポリシー探索後に最良の性能を得るための最終的なファインチューニングを行う。

実験結果

リサーチクエスチョン

  • RQ1強化学習エージェントは、手作りのヒューリスティクスを上回る層ごとの圧縮ポリシーを発見できるか?
  • RQ2連続的な層ごとのスパース性アクションは、離散的な選択よりもより細かく、より効果的なモデル縮小を可能にするか?
  • RQ3AMC はアーキテクチャやタスク(分類から検出)をまたいで圧縮ポリシーを一般化できるか?
  • RQ4リソース制約と精度保証の報酬スキームは、性能を犠牲にすることなく目標予算を信頼性高く達成するか?
  • RQ5モバイル機器とGPU上での実世界の速度向上と精度への影響はどうなるか?

主な発見

  • FLOPs を4倍未満に削減した場合、VGG-16 on ImageNet で手作りポリシーより top-1 精度を 2.7% 上回る。
  • AMC は MobileNet を Android 推論を 1.81×、Titan XP GPU 推論を 1.53×高速化し、ImageNet Top-1 損失はわずか 0.1%。
  • ResNet-50 では、専門家チューニング済みの 3.4× 圧縮を 5×へ拡張して、ImageNet での精度損失なし。
  • Google Pixel 1 で 1.95×の速度アップ、モバイル/GPU で最大 1.53–1.95× の利得を維持された精度で達成し、ヒューリスティック手法を上回る。
  • AMC は物体検出へ一般化可能:VGG-16 を用いた Faster R-CNN で 4× 剪定すると、同じ圧縮下で手作業の剪定と同等またはそれ以上の mAP を達成。
  • CIFAR-10 では、Plain-20 および ResNet-56 に対して FLOPs とパラメータ予算の両方で手作りポリシーより優れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。