Skip to main content
QUICK REVIEW

[論文レビュー] SquishedNets: Squishing SqueezeNet further for edge device scenarios via deep evolutionary synthesis

Mohammad Javad Shafiee, Francis Li|arXiv (Cornell University)|Nov 20, 2017
Advanced Neural Network Applications参考文献 10被引用数 24
ひとこと要約

本稿では、低クラスのシナリオ向けのアーキテクチャ的変更と深層進化的合成を組み合わせることで生成された、超コンパactな深層ニューラルネットワークであるSquishedNetsの提案を行う。10クラスのImageNet-10向けにSqueezeNet v1.1を変更し、15世代にわたって進化させることで、0.95MBという極めて小さなモデルが得られた。これはSqueezeNet v1.1よりも5.17倍も小さく、77%のトップ1精度を維持するとともに、組み込みGPU上で最大256枚/秒の推論速度を達成した。

ABSTRACT

While deep neural networks have been shown in recent years to outperform other machine learning methods in a wide range of applications, one of the biggest challenges with enabling deep neural networks for widespread deployment on edge devices such as mobile and other consumer devices is high computational and memory requirements. Recently, there has been greater exploration into small deep neural network architectures that are more suitable for edge devices, with one of the most popular architectures being SqueezeNet, with an incredibly small model size of 4.8MB. Taking further advantage of the notion that many applications of machine learning on edge devices are often characterized by a low number of target classes, this study explores the utility of combining architectural modifications and an evolutionary synthesis strategy for synthesizing even smaller deep neural architectures based on the more recent SqueezeNet v1.1 macroarchitecture for applications with fewer target classes. In particular, architectural modifications are first made to SqueezeNet v1.1 to accommodate for a 10-class ImageNet-10 dataset, and then an evolutionary synthesis strategy is leveraged to synthesize more efficient deep neural networks based on this modified macroarchitecture. The resulting SquishedNets possess model sizes ranging from 2.4MB to 0.95MB (~5.17X smaller than SqueezeNet v1.1, or 253X smaller than AlexNet). Furthermore, the SquishedNets are still able to achieve accuracies ranging from 81.2% to 77%, and able to process at speeds of 156 images/sec to as much as 256 images/sec on a Nvidia Jetson TX1 embedded chip. These preliminary results show that a combination of architectural modifications and an evolutionary synthesis strategy can be a useful tool for producing very small deep neural network architectures that are well-suited for edge device scenarios.

研究の動機と目的

  • リソース制限のあるエッジデバイスに深層ニューラルネットワークをデプロイする課題に対処すること。
  • トレーニング後の量子化や圧縮技術に依存せずに、モデルサイズと推論遅延を低減すること。
  • 少数クラスのシナリオに特化したアーキテクチャ的変更が、SqueezeNet v1.1のような既存の効率的アーキテクチャを上回るモデル圧縮を可能にするかを検討すること。
  • 深層進化的合成が、エッジデバイス向けに高効率でスケールの小さい深層ニューラルネットワークを生成する有効性を評価すること。

提案手法

  • 最終の全結合層(conv10)を10フィルタの1x1畳み込み層に置き換えることで、SqueezeNet v1.1にアーキテクチャ的変更を加え、特にこの層が全パラメータの約40%を占めるため、パラメータ数を削減した。
  • 進化的合成戦略を採用し、各世代のネットワークは、合成確率モデル P(H_g) ≈ P(H_g|H_{g-1}) · R を用いた確率的プロセスによって生成された。ここで R < 1 であり、リソース制約環境を強制する。
  • 進化的プロセスは15世代にわたって実行され、初期の親アーキテクチャとして変更を加えたSqueezeNet v1.1を用いた。
  • 環境的制約はモデル R に埋め込まれており、世代をまたいでより小さく、速く、パラメータ効率の高いアーキテクチャを優遇する。
  • 各オフスプリングネットワークは、ImageNet-10データセット上でトレーニングされ、精度と推論速度の両面で評価された。
  • 最終的なSquishedNetsは、モデルサイズ、推論速度、10クラスベンチマークにおけるトップ1精度のバランスに基づいて選定された。

実験結果

リサーチクエスチョン

  • RQ1少数クラス分類に特化したアーキテクチャ的変更が、効率的深層ニューラルネットワークのモデルサイズを顕著に削減できるか?
  • RQ2深層進化的合成が、SqueezeNet v1.1のような最先端の効率的アーキテクチャを、精度や速度を損なわずさらなる圧縮が可能か?
  • RQ3SqueezeNet v1.1を上回るモデルサイズの削減は、エッジデバイス上で高い推論速度と精度を維持した状態でどの程度可能か?
  • RQ4量子化や後処理の圧縮なしに、エッジデプロイ用に超コンパクトなモデル(例:1MB未満)を実現できるか?

主な発見

  • 最小のSquishedNetはモデルサイズが0.95MBにまで小さく、これはSqueezeNet v1.1よりも5.17倍、AlexNetよりも253倍も小さい。
  • SquishedNetsはNvidia Jetson TX1上で1秒間に156〜256枚の画像を処理する推論速度を達成し、組み込みハードウェア上で優れたリアルタイム性能を示した。
  • 10クラスのImageNet-10データセットにおけるトップ1精度は81.2%から77.0%の範囲にあり、極端なモデル圧縮にもかかわらず高い性能を維持した。
  • 少数クラスタスク向けのアーキテクチャ的プルーニングと進化的合成の組み合わせにより、量子化や圧縮を一切用いずに、極めてコンパクトで効率的なモデルが生成された。
  • 環境要因モデル R < 1 を用いることで、進化的合成プロセスが、リソース不足の環境を強制的に設定し、より小さく速いアーキテクチャへの探索を効果的に導いた。
  • 結果として、モデル圧縮技術とは独立して、アーキテクチャ的イノベーションと進化的探索を活用することで、エッジデプロイに適した超軽量モデルを実現できることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。