QUICK REVIEW

[论文解读] ResNeSt: Split-Attention Networks

Hang Zhang, Chongruo Wu|arXiv (Cornell University)|Apr 19, 2020

Domain Adaptation and Few-Shot Learning被引用 455

一句话总结

ResNeSt 引入 Split-Attention 块，在多路径组中应用通道级注意力，实现更优的精度-延迟权衡以及在视觉任务上的强大迁移学习效果。

ABSTRACT

It is well known that featuremap attention and multi-path representation are important for visual recognition. In this paper, we present a modularized architecture, which applies the channel-wise attention on different network branches to leverage their success in capturing cross-feature interactions and learning diverse representations. Our design results in a simple and unified computation block, which can be parameterized using only a few variables. Our model, named ResNeSt, outperforms EfficientNet in accuracy and latency trade-off on image classification. In addition, ResNeSt has achieved superior transfer learning results on several public benchmarks serving as the backbone, and has been adopted by the winning entries of COCO-LVIS challenge. The source code for complete system and pretrained models are publicly available.

研究动机与目标

提高通过捕获跨通道交互来改进卷积神经网络中的特征表示，以多路径架构为基础。
开发一个统一的 Split-Attention 块，使其模块化、高效，并可与标准残差块互换。
在 ImageNet 上相对于最先进的 CNN 而言，展示更好的精度与延迟权衡。
当使用 ResNeSt 作为骨干网络应用于检测、分割等相似任务时，展示迁移学习的改进。

提出的方法

定义一个 Split-Attention 块，将特征图分成 G 组（基数 K、辐射 R，总组数 G=KR）。
在每个基数组内，应用 R 次变换，通过学习的通道级注意力机制对分割进行融合，并拼接形成块输出。
使用一个捷径连接来形成一个 ResNeSt 块，并在类似 ResNet 的体系结构中堆叠块。
提供 radix-优先与基数优先实现，以便使用标准 CNN 运算符进行高效计算。"
在大批量分布式训练、余弦学习率调度、标签平滑、AutoAugment、Mixup、较大裁剪尺寸以及 DropBlock 正则化下进行训练。
在 ImageNet 上与最先进模型比较性能，并在 MS-COCO（检测/分割）和 ADE20K（语义分割）上评估迁移学习。

实验结果

研究问题

RQ1Split-Attention 在多路径组内是否能够超越 SE-Net 与 SK-Net，提升跨特征交互和表示多样性？
RQ2与 NAS 优化模型相比，ResNeSt 变体在如 ImageNet 这类大规模数据集上的速度-精度权衡是否更优？
RQ3ResNeSt 骨干是否在下游任务如目标检测、实例分割、语义分割等方面提供持续的增益？

主要发现

ResNeSt 在 ImageNet 上实现比最先进的 CNN 更好的精度-延迟权衡，例如 ResNeSt-269 在可比精度下的延迟低于 EfficientNet-B7。
Split-Attention 块在作为骨干网使用时，能在检测、实例分割和语义分割的迁移学习中带来改进。
在检测和分割任务中，ResNeSt-50/101 骨干网在某些情况下以更少的参数量超越 ResNet-50/101。
Mixup、AutoAugment 以及更大输入裁剪尺寸与 Split-Attention 共同带来精度提升。
Radix 与基数设置显示将 radix 从 0 提高到 4 会提升准确性，但也增加延迟/内存需求，在实验中总体在 2s1x64d 处取得了实用的平衡。
ResNeSt 骨干网在常见的检测/分割框架中可有效替代 ResNet，相对于基线取得显著增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。