[论文解读] Revisiting ResNets: Improved Training and Scaling Strategies
本文解耦了架构、训练和放大,本研究展示改进的训练与放大策略可使 ResNet 达到与最先进模型相媲美的性能,其中 ResNet-RS 相较 EfficientNets 在保持准确性的同时实现了显著的速度提升。
Novel computer vision architectures monopolize the spotlight, but the impact of the model architecture is often conflated with simultaneous changes to training methodology and scaling strategies. Our work revisits the canonical ResNet (He et al., 2015) and studies these three aspects in an effort to disentangle them. Perhaps surprisingly, we find that training and scaling strategies may matter more than architectural changes, and further, that the resulting ResNets match recent state-of-the-art models. We show that the best performing scaling strategy depends on the training regime and offer two new scaling strategies: (1) scale model depth in regimes where overfitting can occur (width scaling is preferable otherwise); (2) increase image resolution more slowly than previously recommended (Tan & Le, 2019). Using improved training and scaling strategies, we design a family of ResNet architectures, ResNet-RS, which are 1.7x - 2.7x faster than EfficientNets on TPUs, while achieving similar accuracies on ImageNet. In a large-scale semi-supervised learning setup, ResNet-RS achieves 86.2% top-1 ImageNet accuracy, while being 4.7x faster than EfficientNet NoisyStudent. The training techniques improve transfer performance on a suite of downstream tasks (rivaling state-of-the-art self-supervised algorithms) and extend to video classification on Kinetics-400. We recommend practitioners use these simple revised ResNets as baselines for future research.
研究动机与目标
- 评估训练方法对 ResNet 性能的影响,独立于架构变更。
- 在不同训练方案下系统性研究放大策略(深度、宽度、分辨率),以推导最佳实践。
- 开发在 TPU/GPU 上优化速度-精度的 ResNet-RS 家族。
- 评估更新后的 ResNet 在半监督学习和迁移学习任务中的表现。
- 展示改进的训练/放大策略对相关任务(视频、下游任务)的普适性。
提出的方法
- 将现代化的训练与正则化技术应用于经典的 ResNet 架构。
- 进行增量性消融研究以量化训练方法、正则化和架构调整的影响。
- 在深度、宽度和图像分辨率上系统性地放大模型,进行完整训练时长(350 轮)。
- 在不同训练方案下比较放大策略以识别深度与宽度的权衡。
- 通过在一系列模型尺寸上应用改进的训练与放大策略来设计 ResNet-RS。
- 在下游任务中使用伪标签数据评估半监督性能与迁移学习。
- 分析延迟、内存和 FLOPs 以解释相对于 EfficientNets 的加速原因。
实验结果
研究问题
- RQ1训练方法与正则化如何相互作用以影响 ResNet 性能,且与架构变更无关?
- RQ2在不同训练方案下,哪种放大策略(深度、宽度、分辨率)能够实现最佳速度-精度帕累托?
- RQ3经修订的 ResNet-RS 能否在 TPU/GPUs 上超越 EfficientNets,同时保持相当的精度?
- RQ4改进的训练与放大策略是否可迁移到半监督学习和下游任务(包括视频)?
主要发现
| 模型 | 分辨率 | Top-1 | 参数量(M) | FLOPs(B) | TPU-v3 延迟(s) | 内存(GB) | GPU 延迟(s) | 注释 |
|---|---|---|---|---|---|---|---|---|
| RS-350 | 256 | 84.0 | 164 | 69 | 1.1 | 7.3 | — | 与表3中的 EfficientNet-B6/B7 相比。 |
| ENet-B6 | 528 | 84.0 | 43 (3.8x) | 38 (1.8x) | 3.0 | 16.6 | — | EfficientNet-B6 条目。 |
| RS-420 | 320 | 84.4 | 192 | 128 | 2.1 | 15.5 | — | 分辨率更高的 RS 模型。 |
| ENet-B7 | 600 | 84.7 | 66 (2.9x) | 74 (1.7x) | 6.0 | 28.3 | — | EfficientNet-B7 条目。 |
- 仅改进的训练方法就将 ResNet-200 的 top-1 精度从 79.0% 提高到 82.2%。
- 增加 SE 和 ResNet-D 使 top-1 提升至 83.4%(训练方法贡献了大部分增益)。
- ResNet-RS 模型在 TPUs 上比 EfficientNets 快 1.7x–2.7x(在 GPUs 上为 2.1x–3.3x),且在 ImageNet 上具有相似精度。
- 在包含 1.3 亿伪标签图像的半监督学习中,ResNet-RS-152 达到 86.2% 的 top-1(在 TPU 上比 EfficientNet-NoisyStudent 快 4.7x)。
- ResNet-RS 将 Kinetics-400 的 3D-ResNet 提升了 +4.0%(从 73.4% 提升到 77.4%)。
- 在下游任务中,带有改进训练的 ResNet 检查点已达到或超过自监督表示(可与 SimCLR 变体相比)。
- EfficientNet-RS(慢速图像缩放)提高了帕累托效率,但在速度-精度曲线中,ResNet-RS 仍有领先。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。