[论文解读] BlockDrop: Dynamic Inference Paths in Residual Networks
BlockDrop 提出了一种基于强化学习的方法,在推理过程中动态跳过残差块,学习实例特定的路径,以减少计算量同时保持准确性。该方法在 ImageNet 上使用 ResNet-101 时实现了平均 20% 的推理速度提升,同时保持 76.4% 的 top-1 准确率,并学习到与视觉语义和实例难度相关的推理策略。
Very deep convolutional neural networks offer excellent recognition results, yet their computational expense limits their impact for many real-world applications. We introduce BlockDrop, an approach that learns to dynamically choose which layers of a deep network to execute during inference so as to best reduce total computation without degrading prediction accuracy. Exploiting the robustness of Residual Networks (ResNets) to layer dropping, our framework selects on-the-fly which residual blocks to evaluate for a given novel image. In particular, given a pretrained ResNet, we train a policy network in an associative reinforcement learning setting for the dual reward of utilizing a minimal number of blocks while preserving recognition accuracy. We conduct extensive experiments on CIFAR and ImageNet. The results provide strong quantitative and qualitative evidence that these learned policies not only accelerate inference but also encode meaningful visual information. Built upon a ResNet-101 model, our method achieves a speedup of 20\% on average, going as high as 36\% for some images, while maintaining the same 76.4\% top-1 accuracy on ImageNet.
研究动机与目标
- 为解决深度 ResNets 在自动驾驶和移动推理等实时应用中的高计算成本问题。
- 通过学习基于输入图像复杂度的残差块跳过策略,实现基于实例的计算。
- 在最小化每轮推理执行的块数的同时,保持高预测准确性。
- 探究学习到的块跳过策略是否编码了有意义的视觉信息,并与图像分类难度相关。
提出的方法
- 通过关联式强化学习训练策略网络,以预测给定输入图像中每个残差块的跳过概率。
- 策略网络采用双重奖励机制进行训练:最小化块使用量,同时保持分类准确性。
- 将预训练的 ResNet 与策略网络联合微调,以生成与动态块跳过兼容的特征表示。
- 所有块决策均一次性完成,避免了顺序推理的开销,从而实现对深层网络的可扩展性。
- 该方法被建模为上下文 bandit 问题,决策基于输入上下文,无需在线遗憾最小化。
- 采用课程学习策略,通过逐步增加块跳过任务的难度来稳定训练过程。
实验结果
研究问题
- RQ1学习到的策略能否在不降低准确率的前提下,动态跳过 ResNet 中的残差块以减少推理时间?
- RQ2学习到的块跳过策略是否编码了与图像内容相关的有意义视觉模式?
- RQ3所用块的数量是否与图像分类的感知难度相关?
- RQ4该方法能否在效率-准确率权衡上优于静态或全局的块跳过方案?
- RQ5单步决策机制是否在速度和开销方面优于顺序替代方案?
主要发现
- BlockDrop 在 ImageNet 上对 ResNet-101 实现了平均 20% 的推理速度提升,同时保持 76.4% 的 top-1 准确率。
- 在 CIFAR-10 上,BlockDrop 仅使用 ResNet-110 中 33% 的块即达到 93.6% 的准确率,优于先前方法。
- 在 CIFAR-100 上,BlockDrop 使用 55% 的块达到 73.7% 的准确率,再次超越当前最先进方法。
- 学习到的策略与视觉语义相关:不同视觉风格(如堆叠物与橙子特写)使用不同的推理路径。
- 使用较少块的图像视觉上更简单——通常包含单一、清晰可见、居中放置的物体,证实块使用量反映了实例难度。
- 该方法的顺序变体反而导致速度下降,证明单步决策机制对效率至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。