[论文解读] Aggregated Residual Transformations for Deep Neural Networks
本文介绍了 ResNeXt,一种模块化的多分支架构,通过增加基数(并行变换的数量)来在不增加深度或宽度的情况下提高准确性,并在 ImageNet、ImageNet-5K、CIFAR 和 COCO 上相比 ResNet 与 Inception 变体证明其有效性。
We present a simple, highly modularized network architecture for image classification. Our network is constructed by repeating a building block that aggregates a set of transformations with the same topology. Our simple design results in a homogeneous, multi-branch architecture that has only a few hyper-parameters to set. This strategy exposes a new dimension, which we call "cardinality" (the size of the set of transformations), as an essential factor in addition to the dimensions of depth and width. On the ImageNet-1K dataset, we empirically show that even under the restricted condition of maintaining complexity, increasing cardinality is able to improve classification accuracy. Moreover, increasing cardinality is more effective than going deeper or wider when we increase the capacity. Our models, named ResNeXt, are the foundations of our entry to the ILSVRC 2016 classification task in which we secured 2nd place. We further investigate ResNeXt on an ImageNet-5K set and the COCO detection set, also showing better results than its ResNet counterpart. The code and models are publicly available online.
研究动机与目标
- 通过探索增加基数如何影响卷积神经网络(CNN)的表征能力来激发体系结构设计。
- 提出一个模块化、同质的多分支块,将变换后的嵌入聚合。
- 证明在相似复杂度下,增加基数可以超越更深或更宽的网络。
- 在 ImageNet、ImageNet-5K、CIFAR 和 COCO 数据集上展示 ResNeXt 的有效性。
提出的方法
- 采用一个模组化的残差块,其中同一拓扑的多种变换通过求和聚合。
- 将基数 C 定义为块中并行变换的数量,在改变 C 的同时保持宽度/深度固定。
- 对每条路径使用瓶颈形变换以控制参数量和 FLOPs。
- 通过拼接或分组卷积等等价形式改写该块,以说明不同的实现。
- 在改变基数的同时保持总的计算复杂度,以比较性能。
- 使用多 GPU 的 SGD 训练并采用标准数据增强;使用分组卷积实现 ResNeXt 块。
实验结果
研究问题
- RQ1在深度和宽度大致保持不变的情况下,增加基数(并行变换的数量)是否会提升准确性?
- RQ2在 ImageNet 上,ResNeXt 在相似的计算预算下与 ResNet 和 Inception 风格结构相比如何?
- RQ3在不同数据规模(ImageNet、ImageNet-5K)和任务(分类、检测、CIFAR)上,高基数带来的增益是否一致?
- RQ4残差连接与聚合变换在优化与表征能力中的作用是什么?
主要发现
- 在相似复杂度下,增加基数比基线 ResNet 的验证错误更低。
- 对于 ResNeXt-50,当将 C 增大到 32,且使用 4d 瓶颈,Top-1 错误从 23.9%(ResNet-50)降至 22.2%。
- 使用 32×4d 的 ResNeXt-101 实现 21.2% 的 Top-1 错误率,优于 ResNet-101 的 22.0%(ResNet-101 为 1×64d 的 22.0%;注:文献表格中信息)。
- 在保留复杂度的情况下通过增加基数比加深或增宽在相似 FLOPs 下的性能更优;例如,使用 ResNeXt-101 (32×4d) 的 2× FLOPs 相对于 ResNet-101 的 Top-1 提升约 1.3%。
- 在 ImageNet-5K 上,ResNeXt-50 相对于 ResNet-50 在 5K 类 Top-1 错误率下降 3.2%,ResNeXt-101 相对于 ResNet-101 降低 2.3%。
- ResNeXt 在 COCO 检测的 AP 和 AP@IoU=0.5 上超过 ResNet 对应方法,同时不增加复杂度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。