[论文解读] Slimmable Neural Networks
单一神经网络可以通过可切换的批归一化在多种宽度下运行,在设备上实现运行时自适应的精度-延迟权衡,在分类和检测任务上与单独训练的模型具有竞争力的性能。
We present a simple and general method to train a single neural network executable at different widths (number of channels in a layer), permitting instant and adaptive accuracy-efficiency trade-offs at runtime. Instead of training individual networks with different width configurations, we train a shared network with switchable batch normalization. At runtime, the network can adjust its width on the fly according to on-device benchmarks and resource constraints, rather than downloading and offloading different models. Our trained networks, named slimmable neural networks, achieve similar (and in many cases better) ImageNet classification accuracy than individually trained models of MobileNet v1, MobileNet v2, ShuffleNet and ResNet-50 at different widths respectively. We also demonstrate better performance of slimmable models compared with individual ones across a wide range of applications including COCO bounding-box object detection, instance segmentation and person keypoint detection without tuning hyper-parameters. Lastly we visualize and discuss the learned features of slimmable networks. Code and models are available at: https://github.com/JiahuiYu/slimmable_networks
研究动机与目标
- 在多样设备上推动对运行时自适应的精度和延迟的需求。
- 提出一个通用框架,用于训练一个可在多种宽度下执行的单一网络。
- 引入 Switchable Batch Normalization 以稳定多宽度的训练。
- 展示在 ImageNet 及下游任务(检测、分割、关键点检测)上的竞争性准确性。
提出的方法
- 在预定义的宽度切换上训练一个共享网络(例如 [0.25,0.5,0.75,1.0]x)。
- 对每个切换使用独立的 Batch Normalization(Switchable BN)以在各宽度之间对齐统计。
- 通过在一个目标函数中聚合所有切换的损失进行训练。
- 提供一个内存高效的训练过程,在每个批次中对切换进行轮换。
- 证明训练后切换宽度几乎不增加运行时间/内存开销。
- 证明其对卷积(包括深度卷积、分组卷积)、池化、全连接、残差,以及各种任务的适用性。
实验结果
研究问题
- RQ1是否可以训练出在多种通道宽度下有效运行且精度损失不显著的单一网络?
- RQ2Switchable Batch Normalization 是否能在训练中稳定并在各切换之间保持性能?
- RQ3在 ImageNet 及下游任务上,按匹配宽度比较时,slimmable 网络的表现相对于独立训练的网络如何?
主要发现
- Slimmable 网络在 ImageNet 上与在相应宽度下单独训练的网络相比,达到相似甚至更高的Top-1准确度(MobileNet v1/v2、ShuffleNet、ResNet-50)。
- Switchable Batch Normalization 使训练和测试中在所有切换之间实现稳定、等级保持的准确性。
- 增加切换数量(例如从4到8)仍维持相近的性能并展示可扩展性。
- 在 COCO 目标检测、实例分割和关键点检测等任务上,当在相应的骨干网络/宽度下评估时,Slimmable 网络表现优于或等于独立训练的模型。
- 使用 Switchable BN 进行训练仅带来微小的参数开销(BN 层通常占模型大小的 <1%),且在推理时可以无额外成本进行融合。
- 该方法可泛化到标准及专用卷积块(包括深度可分离卷积和组卷积)以及多样化的视觉任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。