Skip to main content
QUICK REVIEW

[論文レビュー] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

Andrew Howard, Menglong Zhu|arXiv (Cornell University)|Apr 17, 2017
Advanced Neural Network Applications参考文献 32被引用数 9,892
ひとこと要約

MobileNetsは、携帯機器や組み込みビジョン向けに、軽量で低遅延のCNNを構築するための深度分離畳み込みを導入し、精度/サイズ/速度をトレードオフする2つの単純なハイパーパラメータ(幅倍率と解像度倍率)を提供します。

ABSTRACT

We present a class of efficient models called MobileNets for mobile and embedded vision applications. MobileNets are based on a streamlined architecture that uses depth-wise separable convolutions to build light weight deep neural networks. We introduce two simple global hyper-parameters that efficiently trade off between latency and accuracy. These hyper-parameters allow the model builder to choose the right sized model for their application based on the constraints of the problem. We present extensive experiments on resource and accuracy tradeoffs and show strong performance compared to other popular models on ImageNet classification. We then demonstrate the effectiveness of MobileNets across a wide range of applications and use cases including object detection, finegrain classification, face attributes and large scale geo-localization.

研究の動機と目的

  • 携帯/組み込みデバイスに適した小型で高速な視覚モデルの必要性を動機づける。
  • 計算量とパラメータを削減するため、深度分離畳み込みに基づく軽量アーキテクチャを提案。
  • レイテンシ、精度、モデルサイズをトレードオフする2つのグローバルハイパーパラメータ(幅倍率と解像度倍率)を導入。
  • ImageNetと多様なアプリケーションでMobileNetsを実証評価し、リソースと精度のトレードオフを示す。
  • 実世界の制約下でモデル構成を選択する際の実務者向けガイダンスを提供。

提案手法

  • 標準の畳み込みを深度方向分離畳み込みと1x1のポイントワイズ畳み込みの組み合わせに因数分解する。
  • 深度方向分離畳み込みを備えたMobileNetアーキテクチャを28層(深度方向とポイントワイズ層を含む)で構築し、各層の後にバッチ正規化とReLUを適用。
  • 各層のチャネル数をスケールする幅倍率αを導入し、αとともに計算量をほぼ二乗的に削減。
  • 入力およびすべての内部表現をスケールする解像度倍率ρを導入し、計算量をρ^2だけ削減。
  • 小さなモデルに適した訓練として、TensorFlowでRMSProp、最小限の正則化、限定的なデータ拡張を実施。
Figure 1: MobileNet models can be applied to various recognition tasks for efficient on device intelligence.
Figure 1: MobileNet models can be applied to various recognition tasks for efficient on device intelligence.

実験結果

リサーチクエスチョン

  • RQ1深度方向分離畳み込みは、標準の畳み込みと比較して精度と計算コストにどのような影響を与えるか?
  • RQ2MobileNetsの幅倍率と解像度倍率を変えると、リソースと精度のトレードオフはどうなるか?
  • RQ3ImageNetや下流タスクで、現実的にパラメータとFLOPsを大幅に削減して競争力のある精度を達成できるか?
  • RQ4物体検出、細粒度認識、地理的位置推定、顔属性などの多様な応用でMobileNetsはどれほど良いパフォーマンスを発揮するか?

主な発見

ModelImageNet AccuracyMult-Adds (Million)Parameters (Million)
1.0 MobileNet-22470.6%5694.2
GoogleNet69.8%15506.8
VGG1671.5%15300138
  • 深度方向分離畳み込みは、フル畳み込みと比較して約8-9xの計算量を削減し、ImageNetの精度は約1%の損失に留まる。
  • 細い(幅倍率)MobileNetsは、同程度の計算量とパラメータ数で、より浅いバリアントを上回ることがある。
  • 幅倍率αが小さく、入力解像度ρが低下すると、精度は滑らかに低下し、トレードオフを調整可能。
  • MobileNetsはImageNetでVGG16やGoogLeNetよりはるかに少ないパラメータとFLOPsで競争力のある精度を達成(表8)。
  • 小型のMobileNetsは、微細な認識、地理的位置、顔属性、物体検出、顔埋め込みなどで、モデルサイズと計算量を大幅に削減しつつ競争力のある性能を実現(表9-14)。
  • 蒸留済みMobileNet変種は、マルチ加算の一部を使用しても顔属性分類の性能を維持できる。
(a) Standard Convolution Filters
(a) Standard Convolution Filters

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。