[论文解读] Interleaved Group Convolutions for Deep Neural Networks
引入交错分组卷积(IGC)模块,由一个主空间分组卷积后跟一个次级 1×1 分组卷积以混合通道,产生在参数和计算成本相近的情况下具有相似或更高精度的更宽网络。
In this paper, we present a simple and modularized neural network architecture, named interleaved group convolutional neural networks (IGCNets). The main point lies in a novel building block, a pair of two successive interleaved group convolutions: primary group convolution and secondary group convolution. The two group convolutions are complementary: (i) the convolution on each partition in primary group convolution is a spatial convolution, while on each partition in secondary group convolution, the convolution is a point-wise convolution; (ii) the channels in the same secondary partition come from different primary partitions. We discuss one representative advantage: Wider than a regular convolution with the number of parameters and the computation complexity preserved. We also show that regular convolutions, group convolution with summation fusion, and the Xception block are special cases of interleaved group convolutions. Empirical results over standard benchmarks, CIFAR-$10$, CIFAR-$100$, SVHN and ImageNet demonstrate that our networks are more efficient in using parameters and computation complexity with similar or higher accuracy.
研究动机与目标
- 推动减少在空间和通道维度上的卷积冗余。
- 提出一种模块化构建块(IGC 块),在相同参数/成本约束下增加网络宽度。
- 证明常规卷积、带求和融合的分组卷积,以及 Xception 是 IGC 的特殊情形。
- 在 CIFAR-10/100、SVHN 和 ImageNet 上对 IGC 网络进行经验验证,展示更高的参数效率和竞争力的准确率。
提出的方法
- 定义具有 L 个主分区和 M 个次分区的交错分组卷积。
- 主分组卷积在每个主分区内执行空间卷积。
- 次分组卷积在次分区之间执行 1×1 卷积以混合通道。
- 将复合核表达为 W = P W^d P^T W^p,证明等价于由两个稀疏核构成的密集核的常规卷积。
- 推导参数量 T_igc = L M M S + M L L,并与 T_rc = C^2 S 的常规卷积比较,以显示在相同参数预算下 IGC 可以更宽。
- 讨论与常规卷积、求和融合(ResNeXt 式)以及 Xception 的联系;探索扩展(例如替代核选择、恒等映射)。
- 提供训练细节:每个 IGC 块后进行 BN;主分组卷积和次分组卷积之间无激活;使用带 Nesterov 动量的 SGD;遵循标准的 CIFAR/SVHN/ImageNet 协议。
实验结果
研究问题
- RQ1在相同参数数量下,是否通过将空间分组卷积与通道混合的 1×1 分组卷积交错实现网络宽度增加?
- RQ2IGC 块是否在理论上或经验上比常规卷积更宽,且这种宽度在可比计算量下是否转化为更好的精度?
- RQ3主/次分区选择(L 和 M)如何影响性能,是否存在最优范围?
- RQ4在标准基准测试中,IGC 网络在准确率和效率方面与常规卷积、求和融合块以及 Xception 风格块相比如何?
主要发现
- 一个 IGC 块等价于其核为两个稀疏核乘积的密集常规卷积。
- 在相同参数数量下,IGC 块在 L=1(平凡情况)除外,通常比常规卷积更宽。
- 由堆叠的 IGC 块构成的网络在 CIFAR-10/100 和 SVHN 上,在参数更少、FLOPs 更低的情况下,达到与常规卷积和求和融合基线相似或更高的准确率。
- 经验结果表明,二分支次分区(例如 M=2)通常比极端情况如 Xception(M=1)取得更好性能。
- IGC 网络可以加入恒等映射,以在保持较低参数数量和计算成本的同时提升相对于 ResNet 等价模型的性能。
- 在 ImageNet 规模的实验中,IGC 变体在参数和 FLOP 配置方面相对于 ResNet 基线仍具竞争力的 top-1/top-5 准确率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。