QUICK REVIEW

[论文解读] Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition

Qibin Hou, Cheng-Ze Lu|arXiv (Cornell University)|Nov 22, 2022

Advanced Neural Network Applications被引用 72

一句话总结

Conv2Former 用卷积调制替代自注意力，构建 Transformer 风格的ConvNet。它利用大核并在 ImageNet、COCO、ADE20k 上相较于流行的 ConvNets 与 ViTs 取得显著结果。

ABSTRACT

This paper does not attempt to design a state-of-the-art method for visual recognition but investigates a more efficient way to make use of convolutions to encode spatial features. By comparing the design principles of the recent convolutional neural networks ConvNets) and Vision Transformers, we propose to simplify the self-attention by leveraging a convolutional modulation operation. We show that such a simple approach can better take advantage of the large kernels (>=7x7) nested in convolutional layers. We build a family of hierarchical ConvNets using the proposed convolutional modulation, termed Conv2Former. Our network is simple and easy to follow. Experiments show that our Conv2Former outperforms existent popular ConvNets and vision Transformers, like Swin Transformer and ConvNeXt in all ImageNet classification, COCO object detection and ADE20k semantic segmentation.

研究动机与目标

通过对比 ConvNets 与 Vision Transformers，研究在 ConvNets 中高效编码空间信息的方法。
提出一种简单的卷积调制操作，作为自注意力的替代。
构建一个分层的 ConvNet 家族（Conv2Former），利用大核卷积来提升性能。
在 ImageNet 分类、COCO 目标检测/分割、以及 ADE20k 语义分割上评估 Conv2Former。
探索设计选择和各向同性（ViT 风格）变体，以评估灵活性与可扩展性。

提出的方法

提出一个具有四个阶段和阶段之间补丁嵌入的金字塔结构化 Conv2Former。
用一个卷积调制块替代自注意力，计算 A = DConv_{k×k}(W1 X) 且 Z = A ⊙ (W2 X)。
使用大核尺寸（高达 11×11 或更大）以通过卷积调制实现长程空间交互。
使用逐通道卷积生成权重图并采用 Hadamard 积来调制值表示，在调制前不使用激活或归一化。
每个模型变体（N、T、S、B、L）调优维度和深度配置，参数量在 15M–199M 之间；使用 LayerNorm 归一化和 GELU 激活。
Isotropic/ViT 风格变体（Conv2Former-IS/IB）以与 ViT 类架构进行比较。

实验结果

研究问题

RQ1卷积调制能否取代自注意力，打造一个高效编码空间信息的 Transformer 风格 ConvNet？
RQ2当用作卷积调制中的权重时，大核卷积是否能提供一致的性能提升？
RQ3Conv2Former 在 ImageNet-1k/22k 及下游任务如 COCO 和 ADE20k 上与最先进的 ConvNets 与 ViTs 的对比如何？
RQ4核大小、加权策略和模型各向同性对性能有何影响？

主要发现

Conv2Former 在各尺寸上对 ImageNet-1k 的准确率具有竞争力甚至优越性，例如 Conv2Former-T 为 83.2%， Conv2Former-S 为 84.1%（表 3）。
在 ImageNet-22k 预训练下，Conv2Former-S 达到 84.9%，Conv2Former-B 达到 86.2% 的 ImageNet-1k 微调的 top-1 准确率；Conv2Former-L 达到 87.7%。
在 COCO 目标检测/实例分割（Mask R-CNN/Cascade Mask R-CNN）上，Conv2Former-T/S/B 相较 SwinT 和 ConvNeXt 显示出稳定的 AP 增益，例如在报告的设置中 Conv2Former-T 将 Mask R-CNN AP_bb 提升到 48.0，Cascade Mask R-CNN 提升到 51.4。
在 ADE20k 语义分割的 UperNet 上，Conv2Former 变体优于 Swin Transformer 与 ConvNeXt，例如 Conv2Former-L 的 mIoU 达到 54.3%（ImageNet-22k 预训练）。
消融显示更大核（高达 21×21）带来稳定的增益，Hadamard 乘积基础的融合优于求和或归一化融合。
等向性 Conv2Former 变体（Conv2Former-IS/IB）在相似参数量下优于 DeiT 与 ConvNeXt 基线，证实在等向性设置下具有强大的 ViT 风格性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。