QUICK REVIEW

[论文解读] Improved Residual Networks for Image and Video Recognition

Ionuţ Cosmin Duţă, Li Liu|arXiv (Cornell University)|Apr 10, 2020

Advanced Neural Network Applications参考文献 34被引用 25

一句话总结

本文提出ResMax，一种改进的残差网络架构，通过分阶段的模块化结构、无参数的3×3最大池化投影残差连接以及面向空间-通道的残差块，增强了信息流动。该方法在ImageNet、CIFAR-10和CIFAR-100上实现了最先进精度，成功训练了404层和3002层的网络——深度超过以往任何收敛的CNN——且模型复杂度未增加。

ABSTRACT

Residual networks (ResNets) represent a powerful type of convolutional neural network (CNN) architecture, widely adopted and used in various tasks. In this work we propose an improved version of ResNets. Our proposed improvements address all three main components of a ResNet: the flow of information through the network layers, the residual building block, and the projection shortcut. We are able to show consistent improvements in accuracy and learning convergence over the baseline. For instance, on ImageNet dataset, using the ResNet with 50 layers, for top-1 accuracy we can report a 1.19% improvement over the baseline in one setting and around 2% boost in another. Importantly, these improvements are obtained without increasing the model complexity. Our proposed approach allows us to train extremely deep networks, while the baseline shows severe optimization issues. We report results on three tasks over six datasets: image classification (ImageNet, CIFAR-10 and CIFAR-100), object detection (COCO) and video action recognition (Kinetics-400 and Something-Something-v2). In the deep learning era, we establish a new milestone for the depth of a CNN. We successfully train a 404-layer deep CNN on the ImageNet dataset and a 3002-layer network on CIFAR-10 and CIFAR-100, while the baseline is not able to converge at such extreme depths. Code is available at: https://github.com/iduta/iresnet

研究动机与目标

解决尽管采用残差学习，极深残差网络训练中持续存在的优化困难问题。
克服极深网络中信息传播受限与信号退化的问题。
改进残差块设计，以增强空间特征学习能力，同时保持计算效率。
设计更有效的投影残差连接，减少信息损失并提升性能，且不增加参数量。
实现在标准视觉基准上训练前所未有的深度网络（如3002层）

提出的方法

提出一种分阶段网络架构，每个阶段使用专用的残差模块，以提升信息流动与学习效率。
提出一种基于3×3最大池化的投影残差连接，替代平均池化，并与主干卷积的空域核大小保持一致，确保空间对齐。
设计一种新型残差块，其空间通道容量提升四倍（相比ResNet），以增强空间模式学习能力，同时控制参数量与FLOPs不变。
将改进后的架构应用于多个数据集与任务，包括图像分类、目标检测与视频动作识别。
采用统一的训练协议，包含学习率衰减与批量归一化，同时保持与ResNet相同的深度扩展方式，以确保公平比较。
将投影残差连接集成于第一阶段（与先前工作不同），确保网络起始处信号传播的一致性。

实验结果

研究问题

RQ1我们能否通过重新思考残差块与残差连接的设计，改善极深残差网络中的信息流动？
RQ2基于3×3最大池化的投影残差连接是否优于平均池化与2×2核，在减少信息损失与提升精度方面表现更优？
RQ3在残差块中增加空间通道容量，是否能在不增加模型复杂度的前提下增强特征表示能力？
RQ4在何种程度上，我们能够实现极深网络（如3002层）的稳定训练而不会出现优化失败？哪些架构改进实现了这一点？
RQ5所提出的架构是否在多样化的视觉任务与数据集上具有泛化能力，包括图像分类、目标检测与视频识别？

主要发现

在ImageNet上使用50层网络时，ResMax相比基线ResNet实现1.19%的top-1精度提升，在另一设置下提升达2%。
所提出的3×3最大池化投影残差连接将ImageNet（50层）的top-1错误率降低至22.85%，优于基线ResNet（23.88%）与文献[8]中的方法（23.26%）。
作者成功训练了ImageNet上的404层CNN，以及CIFAR-10与CIFAR-100上的3002层网络——深度超过以往任何收敛的网络。
改进的残差块在保持与原始ResNet块相同参数量与FLOPs的前提下，将空间特征学习能力提升四倍。
该方法在多任务上具有良好的泛化能力：在图像分类（ImageNet、CIFAR-10/100）、目标检测（COCO）与视频动作识别（Kinetics-400、Something-Something-v2）任务中均表现优异。
网络在极端深度下仍能保持稳定训练与收敛，表明通过架构重构可有效缓解极深网络中的优化问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。