QUICK REVIEW

[论文解读] Mixed Precision Quantization of ConvNets via Differentiable Neural Architecture Search

BoRui Wu, Yanghan Wang|arXiv (Cornell University)|Nov 30, 2018

Advanced Neural Network Applications参考文献 24被引用 199

一句话总结

本论文将混合精度量化表述为神经网络结构搜索问题，并引入可微分神经结构搜索（DNAS）来分配逐层比特宽度，在保持ResNet模型精度的同时实现显著压缩。该方法显著比传统NAS更快，并且可适用于多种硬件成本指标。

ABSTRACT

Recent work in network quantization has substantially reduced the time and space complexity of neural network inference, enabling their deployment on embedded and mobile devices with limited computational and memory resources. However, existing quantization methods often represent all weights and activations with the same precision (bit-width). In this paper, we explore a new dimension of the design space: quantizing different layers with different bit-widths. We formulate this problem as a neural architecture search problem and propose a novel differentiable neural architecture search (DNAS) framework to efficiently explore its exponential search space with gradient-based optimization. Experiments show we surpass the state-of-the-art compression of ResNet on CIFAR-10 and ImageNet. Our quantized models with 21.1x smaller model size or 103.9x lower computational cost can still outperform baseline quantized or even full precision models.

研究动机与目标

通过允许每层使用不同的比特宽度而非统一量化，激励降低推理成本和内存占用。
提出一个高效的基于NAS的框架（DNAS）来搜索逐层精度。
证明混合精度量化在维持或提升准确率的同时，可以超越最先进的压缩性能。
展示DNAS方法对如ImageNet上的ResNet这类大网络具有快速性和可扩展性。

提出的方法

将结构空间表示为一个随机超网络，其中边是具有不同量化比特宽度的卷积算子。
用架构参数放宽离散的边选择，并使用Gumbel SoftMax实现可微分的梯度优化。
用SGD联合训练权重和架构参数，并从学习到的分布中采样候选架构。
定义一个考虑成本的目标，使准确性（交叉熵）与模型大小或计算成本通过可配置的Cost(a)函数得到平衡。
将DNAS框架应用于CIFAR-10和ImageNet上的ResNet，以找到逐层精度分配。
按照DoReFa-Net和PACT进行权重和激活的量化，采用分块级混合精度搜索和温度退火的Gumbel采样。

实验结果

研究问题

RQ1通过可微分NAS优化的混合精度量化在精度和压缩方面是否能优于均匀精度量化？
RQ2在不需要过度计算的情况下，如何高效地在各层搜索指数级比特宽度配置？
RQ3逐层比特宽度选择对如ImageNet上ResNet这类大规模架构的模型大小和FLOP降低有何影响？
RQ4DNAS框架是否足够快速，能够用于实际的模型压缩任务？

主要发现

量化模型在某些情形下实现高达21.1x的模型尺寸压缩或103.9x的计算成本下降，同时在某些情况下超过基线量化或甚至全精度模型。
在CIFAR-10上，混合精度ResNet变体的准确率比全精度高出最多0.37%，压缩比为11.6–16.6x；某些配置达到16.6–20.3x的压缩，且准确率损失小于0.39%。
在ImageNet上，ResNet-18/34的最佳架构在精度方面获得0.18–0.49%的提升，模型尺寸约减少10.6–11.2x（MA），或在具有竞争力的准确度下达到19.0–21.1x的减少（ME）。
与TTQ和ADMM基线相比，DNAS架构在相似或更高的压缩水平下，在模型尺寸和计算成本实验中维持更高的准确率。
该DNAS流程在ImageNet的ResNet-18上，使用8个V100 GPUs在5小时内完成搜索，显示出相较于以往NAS方法的实际高效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。