Skip to main content
QUICK REVIEW

[论文解读] MobileNetV2: Inverted Residuals and Linear Bottlenecks

Mark Sandler, Andrew Howard|arXiv (Cornell University)|Jan 13, 2018
Advanced Neural Network Applications参考文献 41被引用 2,267
一句话总结

引入 MobileNetV2,一种内存高效的移动端 CNN,使用反向残差和线性瓶颈在提高准确性的同时降低计算量;还提出 SSDLite 用于高效对象检测以及 Mobile DeepLabv3 进行移动端语义分割。

ABSTRACT

In this paper we describe a new mobile architecture, MobileNetV2, that improves the state of the art performance of mobile models on multiple tasks and benchmarks as well as across a spectrum of different model sizes. We also describe efficient ways of applying these mobile models to object detection in a novel framework we call SSDLite. Additionally, we demonstrate how to build mobile semantic segmentation models through a reduced form of DeepLabv3 which we call Mobile DeepLabv3. The MobileNetV2 architecture is based on an inverted residual structure where the input and output of the residual block are thin bottleneck layers opposite to traditional residual models which use expanded representations in the input an MobileNetV2 uses lightweight depthwise convolutions to filter features in the intermediate expansion layer. Additionally, we find that it is important to remove non-linearities in the narrow layers in order to maintain representational power. We demonstrate that this improves performance and provide an intuition that led to this design. Finally, our approach allows decoupling of the input/output domains from the expressiveness of the transformation, which provides a convenient framework for further analysis. We measure our performance on Imagenet classification, COCO object detection, VOC image segmentation. We evaluate the trade-offs between accuracy, and number of operations measured by multiply-adds (MAdd), as well as the number of parameters

研究动机与目标

  • 设计一个移动友好的神经网络架构,具备高准确性和低计算成本。
  • 引入带线性瓶颈的逆残差结构,在减少内存占用的同时保留信息。
  • 通过轻量级框架展示其在移动对象检测与语义分割方面的适用性。
  • 提供适用于嵌入式硬件的内存高效推理策略。
  • 在 ImageNet、COCO 与 VOC 基准上对比 MobileNetV1 及其他移动模型的性能。

提出的方法

  • 提出带扩张阶段的瓶颈深度可分离卷积,随后是深度卷积和线性投影。
  • 在瓶颈层之间使用残差连接(逆残差)以改善梯度传导和内存效率。
  • 在瓶颈(扩张)阶段强制线性(无非线性),以在低维空间中保持信息。
  • 采用 ReLU6 非线性以提高对低精度计算的鲁棒性。
  • 在各种宽度和输入分辨率下,以固定扩张系数(通常为 6)评估架构。
  • 通过在 SSD 预测层中用深度可分离卷积替代卷积,来引入 SSDLite 以实现移动对象检测。

实验结果

研究问题

  • RQ1带线性瓶颈的逆残差在低计算预算下能否提高移动视觉任务的准确性?
  • RQ2输入/输出域(容量)与变换表达能力的分离如何影响性能和内存使用?
  • RQ3在不同尺度下,MobileNetV2 在准确性、乘加运算量(MAdds)、延迟和参数数量之间有哪些权衡?
  • RQ4如何在尽量低开销的前提下,将移动优化架构扩展到对象检测(SSDLite)和分割(Mobile DeepLabv3)?

主要发现

  • MobileNetV2 在 ImageNet 上取得有竞争力的 Top-1 准确率,同时参数量和 Multiply-Adds 远少于许多基线模型。
  • 带线性瓶颈的逆残差提供内存高效的特征变换并改善梯度流。
  • 窄瓶颈中的非线性降低性能;线性瓶颈有助于保留信息并提升准确性。
  • SSDLite 在 COCO 对象检测中显著减少参数和计算量,同时在精度上相对于更大检测器保持接近。
  • 在报道的设置中,MobileNetV2 + SSDLite 在效率和尺寸指标上优于 COCO 的 YOLOv2。
  • 带有基于 DeepLabv3 的头的 MobileNetV2 为移动端语义分割提供了有利的准确性/计算权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。