[论文解读] Dilated Residual Networks
DRN 使用膨胀卷积在卷积网络中保持高空间分辨率,在不增加网络深度的情况下提升 ImageNet 分类并增强定位与分割。
Convolutional networks for image classification progressively reduce resolution until the image is represented by tiny feature maps in which the spatial structure of the scene is no longer discernible. Such loss of spatial acuity can limit image classification accuracy and complicate the transfer of the model to downstream applications that require detailed scene understanding. These problems can be alleviated by dilation, which increases the resolution of output feature maps without reducing the receptive field of individual neurons. We show that dilated residual networks (DRNs) outperform their non-dilated counterparts in image classification without increasing the model's depth or complexity. We then study gridding artifacts introduced by dilation, develop an approach to removing these artifacts (`degridding'), and show that this further increases the performance of DRNs. In addition, we show that the accuracy advantage of DRNs is further magnified in downstream applications such as object localization and semantic segmentation.
研究动机与目标
- 激励在自然图像及下游任务中保持卷积神经网络的空间分辨率。
- 通过将步幅替换为膨胀来保持分辨率,提出 Dilated Residual Network (DRN)。
- 研究来自膨胀的格网(别名化)伪影,并引入 degridding 以提升性能。
- 展示 DRN 在 ImageNet 分类、弱监督定位和 Cityscapes 语义分割中的改进。
提出的方法
- 将 ResNet 块最后两组中的步长为 2 的下采样替换为 2-dilated(膨胀)卷积以保持分辨率。
- 在 G4_1 和 G5_1 中移除步长以将网络输出的特征图分辨率提高到 28x28。
- 对后续层应用膨胀因子(2 和 4),在提高输出分辨率的同时保持感受野完好。
- 通过替换最大池化、逐步增加膨胀层以及移除某些残差连接来缓解格网伪影,提出去格网化方案(DRN-C)。
- 在需要时用 1x1 卷积替代全局平均池化进行分类,并在无需再训练的情况下启用高分辨率激活图用于定位。
- 展示如何通过将分类网络转换为产生像素级地图,直接用于 DRNs 的弱监督定位。
实验结果
研究问题
- RQ1通过膨胀提高中间输出分辨率在不增加网络深度的情况下是否能提升 ImageNet 分类?
- RQ2膨胀产生的格网伪影如何影响准确性,是否能有效缓解(去格网化)?
- RQ3与标准 ResNet 相比,DRN 是否在下游任务(如弱监督定位和语义分割)上提升性能?
- RQ4经过分类训练的 DRN 是否可以在不进行额外调优或再训练的情况下提供高分辨率定位?
主要发现
| 模型 | 1 裁剪 top-1 | 1 裁剪 top-5 | 10 裁剪 top-1 | 10 裁剪 top-5 | 参数量 P |
|---|---|---|---|---|---|
| ResNet-18 | 30.43 | 10.76 | 28.22 | 9.42 | 11.7M |
| DRN-A-18 | 28.00 | 9.50 | 25.75 | 8.25 | 11.7M |
| DRN-B-26 | 25.19 | 7.91 | 23.33 | 6.69 | 21.1M |
| DRN-C-26 | 24.86 | 7.55 | 22.93 | 6.39 | 21.1M |
| ResNet-34 | 27.73 | 8.74 | 24.76 | 7.35 | 21.8M |
| DRN-A-34 | 24.81 | 7.54 | 22.64 | 6.34 | 21.8M |
| DRN-C-42 | 22.94 | 6.57 | 21.20 | 5.60 | 31.2M |
| ResNet-50 | 24.01 | 7.02 | 22.24 | 6.08 | 25.6M |
| DRN-A-50 | 22.94 | 6.57 | 21.34 | 5.74 | 25.6M |
| ResNet-101 | 22.44 | 6.21 | 21.08 | 5.35 | 44.5M |
| DRN-A-50 (dup) | 22.94 | 6.57 | 21.34 | 5.74 | 25.6M |
- DRN-A 模型在相同深度和容量下的 1-crop 与 10-crop ImageNet top-1/top-5 精度优于其 ResNet 对应物。
- 去格网化(DRN-C)进一步提升性能,DRN-C-26 的准确率与更深的 DRN-A-34 相当,DRN-C-42 与 DRN-A-50 的准确率相当。
- 在某些设置下,DRN-C-26 的表现优于 ResNet-101,尽管深度较小。
- DRN 提供高分辨率的激活图,适用于弱监督定位且无需微调,在定位任务中优于 ResNet。
- 在 Cityscapes 语义分割上,DRN-C-26 和 DRN-C-42 在深度较低的前提下优于 ResNet-101 基线,且去除了退化。
- DRN 输出包含有信息的空间细节,能够在没有后置上采样模块的情况下进行密集预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。