[论文解读] More is Less: A More Complicated Network with Less Inference Complexity
本文提出了一种新型架构——低成本协作网络(LCCN),通过在每个原始卷积层中添加一个轻量级、低成本的协作层(LCCL),加速卷积神经网络的推理过程。LCCL利用ReLU预测零激活区域,从而实现跳过连接,避免主卷积层中的高成本计算,在CIFAR-10、CIFAR-100和ImageNet上实现了平均32%的加速,且精度损失可忽略不计。
In this paper, we present a novel and general network structure towards accelerating the inference process of convolutional neural networks, which is more complicated in network structure yet with less inference complexity. The core idea is to equip each original convolutional layer with another low-cost collaborative layer (LCCL), and the element-wise multiplication of the ReLU outputs of these two parallel layers produces the layer-wise output. The combined layer is potentially more discriminative than the original convolutional layer, and its inference is faster for two reasons: 1) the zero cells of the LCCL feature maps will remain zero after element-wise multiplication, and thus it is safe to skip the calculation of the corresponding high-cost convolution in the original convolutional layer, 2) LCCL is very fast if it is implemented as a 1*1 convolution or only a single filter shared by all channels. Extensive experiments on the CIFAR-10, CIFAR-100 and ILSCRC-2012 benchmarks show that our proposed network structure can accelerate the inference process by 32\% on average with negligible performance drop.
研究动机与目标
- 解决深度CNN在资源受限设备上的高推理成本问题。
- 利用ReLU激活特征图中的固有稀疏性实现高效推理。
- 设计一种通用、即插即用的架构,无需从头开始微调即可加速现有CNN。
- 在显著降低推理阶段计算复杂度的同时保持高模型精度。
提出的方法
- 为每个原始卷积层配备一个低成本协作层(LCCL),其在实现上为1×1卷积或跨通道共享单个滤波器。
- 将原始卷积层的ReLU激活输出与LCCL输出进行逐元素相乘,生成最终输出。
- 利用LCCL的ReLU激活输出预测主卷积层响应中的零值位置,从而实现计算跳过。
- 利用批量归一化(BN)和ReLU增强稀疏性,并在训练过程中保持性能。
- 使用标准SGD和反向传播训练整个网络,将LCCL视为可学习的轻量级辅助分支。
- 使用OpenBLAS在Caffe中实现该方法,支持仅CPU平台上的评估,并获得真实的加速测量结果。
实验结果
研究问题
- RQ1是否可以使用轻量级辅助层来预测并跳过卷积层中的零激活计算?
- RQ2所提出的LCCN架构是否能在不降低模型精度的前提下实现显著的推理加速?
- RQ3LCCL引入的数据相关稀疏性与固定阈值或结构化稀疏方法相比,在效率和性能方面表现如何?
- RQ4LCCN是否可泛化应用于不同网络架构和任务?
主要发现
- LCCN在CIFAR-10、CIFAR-100和ImageNet-12基准上实现了平均32%的加速,且精度损失可忽略不计。
- 在ResNet-110上,该方法实现了34%的加速,优于其他加速技术在速度和精度方面的综合表现。
- 由于BLAS库的效率问题和数据重构开销,CPU上的实际加速(ResNet-18为20.5%,ResNet-34为18.1%)低于理论估算值。
- 可视化结果表明,LCCL比原始网络更有效地突出显示前景物体,表明其具有类似注意力的行为,但无需显式注意力机制。
- 该方法可与量化和剪枝等其他加速技术兼容,从而实现进一步的性能提升。
- LCCN具有平台无关性,通过少量修改即可适配GPU和FPGA等平台使用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。