[论文解读] FishNet: A Versatile Backbone for Image, Region, and Pixel Level Prediction
FishNet 是一种骨干网络,在多个分辨率上保留并细化特征,以统一图像、区域和像素级预测,使直接梯度传播成为可能,并在参数量相近的情况下提高性能。它在 ImageNet 分类方面优于 ResNet/DenseNet,并作为骨干网络时在 COCO 检测/分割上获得显著提升。
The basic principles in designing convolutional neural network (CNN) structures for predicting objects on different levels, e.g., image-level, region-level, and pixel-level are diverging. Generally, network structures designed specifically for image classification are directly used as default backbone structure for other tasks including detection and segmentation, but there is seldom backbone structure designed under the consideration of unifying the advantages of networks designed for pixel-level or region-level predicting tasks, which may require very deep features with high resolution. Towards this goal, we design a fish-like network, called FishNet. In FishNet, the information of all resolutions is preserved and refined for the final task. Besides, we observe that existing works still cannot \emph{directly} propagate the gradient information from deep layers to shallow layers. Our design can better handle this problem. Extensive experiments have been conducted to demonstrate the remarkable performance of the FishNet. In particular, on ImageNet-1k, the accuracy of FishNet is able to surpass the performance of DenseNet and ResNet with fewer parameters. FishNet was applied as one of the modules in the winning entry of the COCO Detection 2018 challenge. The code is available at https://github.com/kevin-ssy/FishNet.
研究动机与目标
- 提出一个统一的骨干网络,利用高分辨率、高层语义特征用于图像、区域和像素级任务。
- 设计鱼状架构,沿尾部(深层特征)、主体(上采样/细化)和头部(下采样/细化)保持和细化特征,以实现直接反向传播。
- 通过避免独立卷积并实现跨分辨率的级联连接来改进梯度传播。
- 证明 FishNet 在参数数量相近的情况下可以超越同类图像分类骨干,并提升区域/像素级任务表现。
提出的方法
- 提出 FishNet,包含三个部分:尾部(下采样骨干)、身体(上采样/带横向连接的细化)和头部(下采样/带连接的细化以保留多分辨率特征)。
- 使用 Up-sampling & Refinement blocks (UR-blocks) 将尾部与主体特征融合并通过卷积进行细化;使用通道维度缩减 r 来管理特征宽度(方程 8)。
- 在头部使用 Down-sampling & Refinement blocks (DR-blocks) 以向下传播多阶段特征,同时保持梯度流(头部没有孤立卷积)。
- 在关键转换处避免 Isolated convolution (I-conv),以维持从深层到浅层的直接梯度传播。
- 采用最近邻上采样和 2x2 下采样,在主体中可选用膨胀卷积以保持空间清晰度。
- 通过整合分组(如 ResNeXt 所示)提供架构变体(FishNet、FishNeXt),并展示参数量对齐的比较。
实验结果
研究问题
- RQ1一个单一的骨干网络是否能统一图像、区域和像素级网络的优势?
- RQ2通过保留和细化多分辨率特征并实现直接梯度传播,在与 ResNet/DenseNet 相近的参数量下是否能提升性能?
- RQ3在作为骨干网络用于 ImageNet 和 COCO 任务时,上采样/下采样的细化如何影响性能?
- RQ4避免孤立卷积对梯度流和最终准确性有何影响?
主要发现
| Backbone | AP_s (seg) | AP_S^s (seg) | AP_M^s (seg) | AP_L^s (seg) | AP_d (seg) | AP_S^d (seg) | AP_M^d (seg) | AP_L^d (seg) | AP_s (det) | AP_S^s (det) | AP_M^s (det) | AP_L^s (det) | AP_d (det) | AP_S^d (det) | AP_M^d (det) | AP_L^d (det) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ResNet-50 | 34.5 | 15.6 | 37.1 | 52.1 | 38.6 | 22.2 | 41.5 | 50.8 | 37.9 | 21.5 | 41.1 | 49.9 | ? | ? | ? | |
| ResNet-50 † | 34.7 | 18.5 | 37.4 | 47.7 | 38.7 | 22.3 | 42.0 | 51.2 | 38.0 | 21.4 | 41.6 | 50.1 | ? | ? | ? | |
| ResNeXt-50 (32x4d) † | 35.7 | 19.1 | 38.5 | 48.5 | 40.0 | 23.1 | 43.0 | 52.8 | 39.3 | 23.2 | 42.3 | 51.7 | ? | ? | ? | |
| FishNet-150 | 37.0 | 19.8 | 40.2 | 50.3 | 41.5 | 24.1 | 44.9 | 55.0 | 40.6 | 23.3 | 43.9 | 53.7 | ? | ? | ? | |
| vs. ResNet-50 † | +2.3 | +1.3 | +2.8 | +2.6 | +2.8 | +1.8 | +2.9 | +3.8 | +2.6 | +1.9 | +2.3 | +3.6 | ? | ? | ? | |
| vs. ResNeXt-50 † | +1.3 | +0.7 | +1.7 | +1.8 | +1.5 | +1.0 | +1.9 | +2.2 | +1.3 | +0.1 | +1.6 | +2.0 | ? | ? | ? |
- 在 ImageNet-1k 上,FishNet-150(约等同于 ResNet-50 的参数量)在准确性更高且 FLOPs 更低的情况下超越 ResNet-101 和 DenseNet。
- FishNet-150 在单裁剪评估中,超越 ResNet-50 和 ResNeXt-50,且具有类似参数预算。
- 作为 MS COCO 的骨干时,FishNet-150 相比 ResNet-50/ResNeXt-50 基线,在 Mask R-CNN 和基于 FPN 的检测中提升约 2.3–2.8 AP 点。
- FishNet 的变体在参数更少的情况下达到竞争或优于 DenseNet 与 ResNet 基线的准确性,并实现有效的区域与像素级预测。
- COCO 2018 的获奖作品使用 FishNet 作为骨干组件,在强实例分割结果中发挥作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。