[论文解读] Involution: Inverting the Inherence of Convolution for Visual Recognition
本文引入 involution(一种与卷积相反的运算),能够产生时空自适应、通道共享的内核,按单个像素进行条件化以构建 RedNet,在 ImageNet、COCO 和 Cityscapes 上在较低计算量下实现较强的准确性。它还在 involution 框架内统一自注意力,并展示了具有竞争力的准确性与成本权衡。
Convolution has been the core ingredient of modern neural networks, triggering the surge of deep learning in vision. In this work, we rethink the inherent principles of standard convolution for vision tasks, specifically spatial-agnostic and channel-specific. Instead, we present a novel atomic operation for deep neural networks by inverting the aforementioned design principles of convolution, coined as involution. We additionally demystify the recent popular self-attention operator and subsume it into our involution family as an over-complicated instantiation. The proposed involution operator could be leveraged as fundamental bricks to build the new generation of neural networks for visual recognition, powering different deep learning models on several prevalent benchmarks, including ImageNet classification, COCO detection and segmentation, together with Cityscapes segmentation. Our involution-based models improve the performance of convolutional baselines using ResNet-50 by up to 1.6% top-1 accuracy, 2.5% and 2.4% bounding box AP, and 4.7% mean IoU absolutely while compressing the computational cost to 66%, 65%, 72%, and 57% on the above benchmarks, respectively. Code and pre-trained models for all the tasks are available at https://github.com/d-li14/involution.
研究动机与目标
- 通过交换空间和通道的角色来重新思考标准卷积,以解决视觉任务中的空间无关性和通道冗余。
- 提出一种轻量级、像素条件化的 involution 运算符,该运算在通道之间共享内核并适应空间位置。
- 证明 involution 能泛化自注意力,并且可以作为现成的原语,构建高效骨干网络(RedNet),用于分类、检测和分割。
- 在 ImageNet、COCO(检测/分割)和 Cityscapes(分割)上展示最先进的准确性-效率权衡。
提出的方法
- 将 involution 定义为一个对每个输入位置 (i,j) 生成大小为 KxK 的内核 H 的空间特定、通道无关的运算。
- 通过瓶颈 phi 以单个像素 X_{i,j} 为条件生成 H:H_{i,j} = phi(X_{i,j}) = W1 sigma(W0 X_{i,j}).
- 在通道之间共享 involution 内核,并计算 Y_{i,j,k} = sum_{(u,v) in Delta_K} H_{i,j,u+K/2,v+K/2, floor(kG/C)} X_{i+u,j+v,k}.
- 通过在干 stem/bottleneck 中将 3x3 卷积替换为 involution,并保留 1x1 投影以进行融合,将内核生成嵌入到类 ResNet 的骨干(RedNet)中。
- 在 ImageNet、COCO 与 Cityscapes 上将 RedNet 与卷积和自注意力基线进行对比,以评估准确性与效率。
- 讨论与自注意力的关系,展示 involution 作为一种广义、简化的实现,可以在不需要显式的 query-key-value 形成的情况下获得有竞争力的结果。
实验结果
研究问题
- RQ1具有空间自适应、通道无关内核的运算符(involution)是否能够超越标准卷积并更高效?
- RQ2involution 如何与视觉架构中的自注意力相关联并可能覆盖自注意力?
- RQ3基于 involution 的 RedNet 骨干是否在较低计算成本下提升 ImageNet 分类及下游任务(检测/分割)?
- RQ4在如 ImageNet、COCO、Cityscapes 等基准上的 involution 的经验性准确性-效率权衡是什么?
主要发现
- Involution 能实现更广的空间上下文建模和自适应的空间加权,同时通过跨通道共享内核来降低内核冗余。
- 在 ImageNet 的 top-1 准确率方面,使用 involution 的 RedNet 在参数更少、FLOPs 更低的情况下持续优于基于卷积的 ResNet 变体。
- 在 COCO 上,RedNet-50 使用 involution 相比卷积基线提升 bbox AP,并且在颈部/头部使用时可进一步降低计算量。
- 在 Cityscapes 上,使用 involution 的 RedNet 骨干在平均 IoU、对大目标的性能方面更高,并且在颈部和头部使用时可显著节省参数和 FLOPs。
- 在各类任务中,基于 involution 的架构在准确性-效率方面相对于 CNNs 和自注意力模型具有更有利的区间,通常在相同或更高准确度的前提下实现 20-40% 的计算量下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。