QUICK REVIEW

[论文解读] ConTNet: Why not use convolution and transformer at the same time?

Haotian Yan, Zhe Li|arXiv (Cornell University)|Apr 27, 2021

Advanced Neural Network Applications参考文献 44被引用 62

一句话总结

ConTNet 将标准变换器编码器与卷积层结合，以扩大感受野；在比 DeiT 更少计算量的情况下实现高的 ImageNet 准确率，并提升下游密集预测任务。

ABSTRACT

Although convolutional networks (ConvNets) have enjoyed great success in computer vision (CV), it suffers from capturing global information crucial to dense prediction tasks such as object detection and segmentation. In this work, we innovatively propose ConTNet (ConvolutionTransformer Network), combining transformer with ConvNet architectures to provide large receptive fields. Unlike the recently-proposed transformer-based models (e.g., ViT, DeiT) that are sensitive to hyper-parameters and extremely dependent on a pile of data augmentations when trained from scratch on a midsize dataset (e.g., ImageNet1k), ConTNet can be optimized like normal ConvNets (e.g., ResNet) and preserve an outstanding robustness. It is also worth pointing that, given identical strong data augmentations, the performance improvement of ConTNet is more remarkable than that of ResNet. We present its superiority and effectiveness on image classification and downstream tasks. For example, our ConTNet achieves 81.8% top-1 accuracy on ImageNet which is the same as DeiT-B with less than 40% computational complexity. ConTNet-M also outperforms ResNet50 as the backbone of both Faster-RCNN (by 2.6%) and Mask-RCNN (by 3.2%) on COCO2017 dataset. We hope that ConTNet could serve as a useful backbone for CV tasks and bring new ideas for model design

研究动机与目标

激励创建一个能够捕捉远程依赖的骨干网络，而不需要数据需求高、对超参数敏感的变换器。
引入一种将变换器编码器与 3x3 卷积交错的 ConTNet 架构。
展示 ConTNet 能在标准 ConvNet 流水线和数据增强下进行训练。
展示在图像分类及下游密集预测任务上的改进。

提出的方法

将 ConTNet 作为一组 ConT 块的堆叠来引入，每个块包含两个标准变换器编码器（STE）和一个 3x3 卷积。
以 patch 方式嵌入 STE：将特征图分割为块，展平为序列，应用带位置编码的 STE，然后重新整形回特征图。
使用交替的 STE 和 Conv 层来共同捕捉全局与局部特征，并使用残差连接。
提供四种架构变体（ConT-Ti、S、M、B），具有逐步增大的深度/宽度以及可配置的补丁大小（7x7 和 14x14）。
定义 patch-wise STE 操作： y^p_{mn} = STE(x^p_{mn}) where STE = FFN(MHSA(x^p_{mn} + PE)).
讨论显示 ConTNet 的训练机制是鲁棒的，并且可以像标准 ConvNets（例如 ResNet）一样进行优化，并结合类似 DeiT/ViT 比较中的数据增强技巧。

实验结果

研究问题

RQ1在相似训练条件下，卷积-变换器混合骨干是否能在 ImageNet 上超越纯 ConvNets 和纯 Vision Transformers？
RQ2将 STE 嵌入 ConvNet 架构是否在无需大量预训练的情况下提升鲁棒性并有助于向密集预测任务的迁移？
RQ3补丁大小、学习率和分组对 ConTNet 的性能与效率有何影响？

主要发现

网络	浮点运算量 (G)	参数量 (M)	Top-1 (%)
Res-18	1.8	11.7	71.5
ConT-S	1.5	10.1	74.9
Res-50	4.0	25.6	77.1
ConT-M	3.1	19.2	77.6
Res-101	7.6	44.5	78.2
ConT-B	6.4	39.6	77.9

ConTNet 在 ImageNet 的 Top-1 准确率达到 81.8%，使用 ConT-B，与 DeiT-B 相当，同时需要约 40% 的 FLOPs。
在没有额外技巧的 ImageNet 上，ConTNet 的变体在同等预算下优于 ResNets（例如 ConT-M 超越 ResNet-50；ConT-B 超过 ResNet-101 0.3%）。
在强数据增强下，ConTNet 在各预算下持续优于 ResNet 基线（例如 ConT-B 81.8% vs Res-101 80.0%）。
作为检测/分割的骨干网络，ConT-M 提升 Faster-RCNN、FCOS 和 RetinaNet（如 AP 增益在 +2.6 到 +4.3 点，视任务而定）。
实例分割和语义分割也受益（Mask-RCNN：bbox MAP +2.3，seg MAP +3.4；Cityscapes mIOU：PSPNet+ConT-M +1.16%）。
消融表明 patch-wise 位置编码有益；7 和 14 的补丁大小在交替配置下表现最好（表 9）。
分组卷积相较于标准卷积会降低准确性；深度可分离卷积在效率/准确性折中上提供有利选择（表 11）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。