QUICK REVIEW

[论文解读] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

Andrew Howard, Menglong Zhu|arXiv (Cornell University)|Apr 17, 2017

Advanced Neural Network Applications参考文献 32被引用 9,892

一句话总结

MobileNets 引入逐通道卷积（深度可分离卷积）来构建轻量、低延迟的卷积神经网络，用于移动和嵌入式视觉，其有两个简单的超参数（通道宽度乘数和分辨率乘数）来权衡准确性、规模和速度。

ABSTRACT

We present a class of efficient models called MobileNets for mobile and embedded vision applications. MobileNets are based on a streamlined architecture that uses depth-wise separable convolutions to build light weight deep neural networks. We introduce two simple global hyper-parameters that efficiently trade off between latency and accuracy. These hyper-parameters allow the model builder to choose the right sized model for their application based on the constraints of the problem. We present extensive experiments on resource and accuracy tradeoffs and show strong performance compared to other popular models on ImageNet classification. We then demonstrate the effectiveness of MobileNets across a wide range of applications and use cases including object detection, finegrain classification, face attributes and large scale geo-localization.

研究动机与目标

动机：使适合移动/嵌入式设备的小型、快速视觉模型成为可能。
提出基于深度可分离卷积的轻量级架构，以减少计算量和参数。
引入两个全局超参数（宽度乘数和分辨率乘数）以在延迟、准确性和模型大小之间权衡。
在ImageNet及多种应用上对MobileNets进行实证评估，以展示资源与准确性的权衡。
为实践者在现实约束下选择模型配置提供指导。

提出的方法

采用逐通道可分卷积将标准卷积分解为一个深度方向的空间滤波器，后跟一个1x1的逐点卷积。
构建一个包含28层的MobileNet架构（包括深度卷积和逐点卷积层），在每层之后使用批归一化和ReLU。
引入宽度乘数alpha来缩放每层的通道数，计算量将近似随alpha平方降低。
引入分辨率乘数rho来缩放输入和所有内部表示，计算量减少为rho^2。
使用TensorFlow以RMSProp训练，极少正则化，有限的数据增强以适应小模型。

实验结果

研究问题

RQ1与标准卷积相比，深度可分离卷积如何影响准确性和计算成本？
RQ2在改变宽度乘数和分辨率乘数时，MobileNets的资源-准确性权衡是什么？
RQ3MobileNets是否能够在ImageNet及下游任务上以显著减少的参数和FLOPs实现有竞争力的准确性？
RQ4MobileNets在对象检测、细粒度识别、地理定位和人脸属性等多样化应用中的表现如何？

主要发现

模型	ImageNet 准确率	乘加（百万）	参数（百万）
1.0 MobileNet-224	70.6%	569	4.2
GoogleNet	69.8%	1550	6.8
VGG16	71.5%	15300	138

与全卷积相比，深度可分离卷积将计算量降低约8-9倍，ImageNet准确率损失仅约1%。
更薄的（宽度乘数）MobileNets在相似的计算和参数数量下可能优于更浅的变体。
当宽度乘数alpha减小以及输入分辨率rho减小时，准确性呈平滑下降，便于实现可调权衡。
在ImageNet上，MobileNets以远少于VGG16和GoogleNet的参数和FLOPs实现具有竞争力的准确性（表8）。
更小的MobileNets在细粒度识别、地理定位、人脸属性、对象检测和人脸嵌入等方面实现具有竞争力的性能，同时显著降低了模型大小和计算量（表9-14）。
蒸馏的MobileNet变体在保持人脸属性分类性能的同时，使用了更少的多加运算。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。