[论文解读] Exploiting Local Structures with the Kronecker Layer in Convolutional Networks
本文提出Kronecker层,一种参数高效的压缩方法,通过使用较小矩阵的Kronecker积之和来替代全连接层和卷积层中的大权重矩阵,实现高达3.6倍的参数减少或3.3倍的推理加速,且精度损失低于1%。该方法比低秩近似更有效地利用了权重矩阵中的局部结构冗余,在SVHN和CASIA-HWDB数据集上实现了SOTA性能,模型参数更少,推理更快。
In this paper, we propose and study a technique to reduce the number of parameters and computation time in convolutional neural networks. We use Kronecker product to exploit the local structures within convolution and fully-connected layers, by replacing the large weight matrices by combinations of multiple Kronecker products of smaller matrices. Just as the Kronecker product is a generalization of the outer product from vectors to matrices, our method is a generalization of the low rank approximation method for convolution neural networks. We also introduce combinations of different shapes of Kronecker product to increase modeling capacity. Experiments on SVHN, scene text recognition and ImageNet dataset demonstrate that we can achieve $3.3 imes$ speedup or $3.6 imes$ parameter reduction with less than 1\% drop in accuracy, showing the effectiveness and efficiency of our method. Moreover, the computation efficiency of Kronecker layer makes using larger feature map possible, which in turn enables us to outperform the previous state-of-the-art on both SVHN(digit recognition) and CASIA-HWDB (handwritten Chinese character recognition) datasets.
研究动机与目标
- 为在资源受限设备上高效部署,减少卷积神经网络中的参数数量和计算时间。
- 利用标准低秩近似无法捕捉的权重矩阵和张量中的局部结构模式。
- 开发一种通用框架,利用Kronecker积将基于外积的低秩方法推广至更高维的局部结构。
- 证明基于Kronecker的压缩方法在相同模型尺寸下,相比以往方法能实现更快的推理速度和更高的精度。
- 提供一种高效、可微的Kronecker层实现,兼容标准深度学习框架。
提出的方法
- Kronecker层用较小矩阵的Kronecker积之和替代大权重矩阵,通过捕捉局部空间结构,推广了低秩近似方法。
- 利用恒等式 (A ⊗ B)vec(X) = vec(B X A^T) 通过标准矩阵乘法和重塑操作高效计算前向传播。
- 该方法支持Kronecker分量的可变形状和秩,实现模型大小、速度与精度之间的灵活权衡。
- 通过将卷积核重参数化为较小卷积核的Kronecker积,将框架扩展至卷积层,保留局部空间模式。
- 提出一种新型初始化方案以稳定训练,并在每个Kronecker分量后应用非线性激活,增强模型表征能力。
- 该方法基于标准深度学习操作实现,无需自定义核函数,可在CPU和GPU上实现高效推理。
实验结果
研究问题
- RQ1基于Kronecker积的分解是否能比标准低秩近似更有效地利用神经网络权重中的局部结构冗余?
- RQ2Kronecker层在保持基准视觉任务高精度的前提下,能在多大程度上减少模型大小和推理时间?
- RQ3使用不同形状和秩的多个Kronecker积组合,如何影响参数效率与精度之间的权衡?
- RQ4Kronecker层是否能在速度和精度两方面均优于SVD或低秩分解等现有压缩技术?
- RQ5Kronecker层的使用是否因计算量减少而支持更大的特征图,从而在识别任务中带来性能提升?
主要发现
- 在SVHN数据集上,Kronecker层实现了3.3倍的推理加速或3.6倍的参数减少,且精度损失低于1%。
- 在CASIA-HWDB手写中文字符识别数据集上,基于Kronecker的模型在相似模型尺寸下超越了之前的SOTA方法。
- 在ImageNet上,KFC-3模型将参数量减少10倍(降至610万),top-1错误率仅增加2.72%,相比基线模型,优于相同压缩比下的SVD-3方法。
- 在ICDAR’13数据集上,总秩为40的KFC层相比标准全连接层节省了92%的参数,同时保持了高精度。
- 实验表明,Kronecker层可通过标准操作高效实现,即使在CPU上也能实现快速推理,并支持灵活的超参数调优以实现精度与速度的权衡。
- 与基于外积的低秩近似相比,该方法在权重矩阵重建效率上表现更优,图像近似对比结果已验证此优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。