QUICK REVIEW

[论文解读] Quantized Convolutional Neural Networks for Mobile Devices

Jiaxiang Wu, Cong Leng|arXiv (Cornell University)|Dec 21, 2015

Advanced Neural Network Applications参考文献 27被引用 32

一句话总结

本文提出量化卷积神经网络（Q-CNN），这是一种统一框架，通过量化卷积层和全连接层的权重，实现对卷积神经网络的加速与压缩。通过在量化过程中最小化层响应估计误差，并采用一种训练方案以抑制误差累积，Q-CNN在精度损失低于1%的情况下，实现了4–6倍的加速和15–20倍的模型压缩，使移动设备上实现实时图像分类成为可能。

ABSTRACT

Recently, convolutional neural networks (CNN) have demonstrated impressive performance in various computer vision tasks. However, high performance hardware is typically indispensable for the application of CNN models due to the high computation complexity, which prohibits their further extensions. In this paper, we propose an efficient framework, namely Quantized CNN, to simultaneously speed-up the computation and reduce the storage and memory overhead of CNN models. Both filter kernels in convolutional layers and weighting matrices in fully-connected layers are quantized, aiming at minimizing the estimation error of each layer's response. Extensive experiments on the ILSVRC-12 benchmark demonstrate 4~6x speed-up and 15~20x compression with merely one percentage loss of classification accuracy. With our quantized CNN model, even mobile devices can accurately classify images within one second.

研究动机与目标

解决深度CNN在移动设备上的高计算与内存需求问题。
实现CNN中卷积层与全连接层的同步加速与压缩。
通过响应估计误差最小化，最小化量化过程中的分类精度下降。
开发一种训练方案，以抑制深层网络中多个量化层的误差累积。
在移动平台使用量化模型实现实时推理。

提出的方法

对卷积层的滤波器核与全连接层的权重矩阵进行量化，以实现高效的近似内积计算。
在量化过程中最小化每一层响应的估计误差，以保持模型性能。
引入一种训练方案，考虑前序层的估计误差，以减少深层网络中的累积误差。
采用混合量化策略，为不同层分配不同位宽：卷积层使用8位，全连接层使用3–4位。
在全连接层中应用低秩近似与参数剪枝，以进一步减小模型大小。
使用仅CPU推理在移动设备上实现量化模型，无需GPU加速。

实验结果

研究问题

RQ1能否通过联合量化卷积层与全连接层，同时实现CNN推理的加速与模型尺寸的减小？
RQ2如何优化量化过程，以最小化每层的响应估计误差，同时保持分类精度？
RQ3多个量化层之间的误差累积有何影响？在训练过程中如何缓解该问题？
RQ4量化CNN在多大程度上可实现在移动设备上的实时推理，且精度损失极小？
RQ5Q-CNN在标准基准测试中与基线量化与压缩方法相比，性能如何？

主要发现

在ILSVRC-12基准上，Q-CNN实现了4.05×至5.78×的加速与15.40×至20.34×的压缩，top-5精度损失低于1%。
在华为Mate 7智能手机上，Q-CNN将推理时间从原始AlexNet的2.93秒降至0.95秒，从CNN-S的10.58秒降至2.61秒，实现了3–4倍加速。
存储占用从原始AlexNet的232.56MB降至Q-CNN的12.60MB，减少了15.4倍，内存使用量从264.74MB降至74.65MB。
对于VGG-16，Q-CNN实现了4.06倍加速与20.34倍压缩，top-5错误率仅增加0.58%。
该框架使移动设备在1秒内完成实时图像分类，即使无GPU加速亦可实现。
在仅CPU系统上，实际加速效果略低于理论估算，表明通过SIMD或AVX进一步优化具有潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。