[论文解读] HS-ResNet: Hierarchical-Split Block on Convolutional Neural Network
HS-ResNet 引入一个即插即用的分层分割块,在单个残差块内创建多尺度特征表示,在图像分类、目标检测、实例分割和语义分割方面提升性能,参数和延迟相当。
This paper addresses representational block named Hierarchical-Split Block, which can be taken as a plug-and-play block to upgrade existing convolutional neural networks, improves model performance significantly in a network. Hierarchical-Split Block contains many hierarchical split and concatenate connections within one single residual block. We find multi-scale features is of great importance for numerous vision tasks. Moreover, Hierarchical-Split block is very flexible and efficient, which provides a large space of potential network architectures for different applications. In this work, we present a common backbone based on Hierarchical-Split block for tasks: image classification, object detection, instance segmentation and semantic image segmentation/parsing. Our approach shows significant improvements over all these core tasks in comparison with the baseline. As shown in Figure1, for image classification, our 50-layers network(HS-ResNet50) achieves 81.28% top-1 accuracy with competitive latency on ImageNet-1k dataset. It also outperforms most state-of-the-art models. The source code and models will be available on: https://github.com/PaddlePaddle/PaddleClas
研究动机与目标
- 设计一个高效块,最小化特征图中的冗余信息。
- 开发一个可插拔的分层分割块,以升级现有的 CNN 主干。
- 在分类、检测、实例分割和语义分割等多任务上展示有效性。
提出的方法
- 提出分层分割块,在经过 1x1 卷积后将特征图分成 s 组。
- 在每组中应用3x3卷积来生成 y_i,然后将 y_i 分成 y_{i,1} 和 y_{i,2},其中 y_{i,2} 与下一组 x_{i+1} 拼接。
- 在最终的 1x1 卷积重建特征之前,将 y_{i,1} 在各组之间连接,以恢复通道维度。
- 将 ResNet Bottlenecks 中的标准 3x3 卷积替换为分层分割块,同时保持相近的参数数量与计算成本。
- 分析复杂度以表明在某些条件下,HS-ResNet 使用的资源比具有相同 w 和 s 的 kxk 卷积更少。
- 在 ImageNet-1k 及下游任务(COCO、Cityscapes)上进行训练和评估,以展示改进。
实验结果
研究问题
- RQ1分层分割块是否能在单个残差块内产生多尺度表示?
- RQ2将标准瓶颈卷积替换为分层分割块,是否在图像分类、目标检测、实例分割和语义分割等方面提升性能,并且在参数或延迟上不显著增加?
- RQ3宽度 w 和分组数 s 如何影响准确性和推理速度?
- RQ4HS-ResNet 在标准视觉基准上是否具有与最先进骨干网络竞争力或更优?
主要发现
- HS-ResNet50 在 ImageNet-1k 上达到 81.28% 的 top-1 准确率,训练 300 训练 epoch 和数据增强。
- HS-ResNet50 对 COCO 目标检测 mAP 从 37.2%(ResNet50)提升至 41.6% 使用 Faster R-CNN + FPN。
- HS-ResNet50 在 Mask R-CNN 的 2x 训练 schedule 下达到 43.1% 的 bbox mAP 和 38.0% 的 segm mAP,超越 ResNet50-D 和 Res2Net50。
- HS-ResNet50 在 Cityscapes 的 Deeplabv3+ 基线下实现 79.8% 的 mean IoU,相比 ResNet50-D 提升 1.8%。
- 消融研究表明更高的分组数 s 提升准确性,但因串行处理和分割操作可能减慢推理速度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。