[论文解读] VarGNet: Variable Group Convolutional Neural Network for Efficient Embedded Computing
本文提出VarGNet,一种新型卷积神经网络架构,通过引入可变组卷积(fixing the number of input channels per group rather than the number of groups)实现高效的嵌入式推理。该设计使计算模式和数据布局更加均匀,显著提升硬件与编译器优化效果。VarGNet在多个视觉任务中达到最先进精度,同时减少MAdds和参数量,在边缘设备上展现出卓越效率。
In this paper, we propose a novel network design mechanism for efficient embedded computing. Inspired by the limited computing patterns, we propose to fix the number of channels in a group convolution, instead of the existing practice that fixing the total group numbers. Our solution based network, named Variable Group Convolutional Network (VarGNet), can be optimized easier on hardware side, due to the more unified computing schemes among the layers. Extensive experiments on various vision tasks, including classification, detection, pixel-wise parsing and face recognition, have demonstrated the practical value of our VarGNet.
研究动机与目标
- 弥合网络架构设计与嵌入式AI系统中硬件/编译优化之间的差距。
- 通过使网络计算模式与嵌入式芯片中有限且固定的计算单元相匹配,提升硬件效率。
- 通过更一致的数据布局和各层间均衡的计算强度,降低对外部内存访问的开销。
- 通过系统化的架构设计,增强轻量化网络与现有FPGA和ASIC加速器的兼容性。
- 证明固定每组输入通道数的分组方式,相比传统固定组数的卷积,能带来更优的编译器与硬件优化效果。
提出的方法
- 提出可变组卷积:固定每组的输入通道数并可调作为超参数,而非固定组数。
- 将标准的倒残差块替换为改进设计:使用可变组卷积将输入通道扩展至2C,再通过逐点卷积投影回C,以平衡计算强度。
- 设计网络以适配理想的内存布局,最大限度减少片上与片外内存之间的数据传输,降低通信开销。
- 通过确保各层间计算模式的一致性,优化硬件性能,提升流式处理或单计算引擎加速器的利用率。
- 以深度可分离卷积为基础,但重构通道扩展与投影阶段,以提升计算均匀性。
- 通过使网络操作模式与目标芯片支持的指令集对齐,复用现有的编译与加速器框架。
实验结果
研究问题
- RQ1如何使网络架构设计与嵌入式硬件有限的计算模式对齐,以提升效率?
- RQ2哪些架构改进可减少嵌入式CNN中的片外内存访问并提升数据布局的一致性?
- RQ3固定每组输入通道数而非组数,是否能带来更优的硬件与编译器优化?
- RQ4在模型容量与通信开销方面,可变组卷积与深度可分离卷积相比有何差异?
- RQ5硬件感知的网络设计在真实嵌入式视觉任务中,能在多大程度上提升性能?
主要发现
- VarGNet v1 1.0实现36.0 G MAdds与13.2M参数,在KITTI立体深度估计任务中优于MobileNetV2 1.0(36.8 G MAdds,7.6M参数),EPE更低(1.3296 vs. 1.424),D1更优(0.0703 vs. 0.0777)。
- 在KITTI RAW数据集上,VarGNet v1 1.0的绝对相对误差更低(0.098),精度更高(δ <1.25: 0.899),优于MobileNetV2 1.0(0.097与0.903),尽管MAdds略低。
- 在人脸识别任务中,VarGNet v1 1.0在1e-6 FRR下实现96.15%准确率,优于MobileNetV2(89.82%)与MobileNetV1(93.58%),且仅需603M MAdds。
- VarGNet v2 1.0将MAdds降低至20.7G,同时在KITTI15上保持竞争力表现(EPE: 1.5856),展现出面向低功耗部署的高效率。
- 所提出的可变组卷积有效平衡了深度卷积与逐点卷积之间的计算负载,显著降低编译器与硬件优化的复杂性。
- 在分类、检测、分割、立体深度与人脸识别等任务上的实验验证了VarGNet在边缘设备上的实用价值与广泛适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。