QUICK REVIEW

[论文解读] Improved Techniques for Training Adaptive Deep Networks

Hao Li, Hong Zhang|arXiv (Cornell University)|Aug 17, 2019

Advanced Neural Network Applications参考文献 26被引用 19

一句话总结

本论文提出了三种训练技术——梯度平衡（GE）、内联子网络协作（ISC）和全网知识蒸馏（OFA），以提升具有多个中间分类器的自适应深度网络的训练效率。这些方法稳定了训练过程，增强了分类器之间的协作，并在CIFAR-10、CIFAR-100和ImageNet上持续提升了准确率与推理效率，在相似FLOP约束下，性能优于当前最先进模型超过6%。

ABSTRACT

Adaptive inference is a promising technique to improve the computational efficiency of deep models at test time. In contrast to static models which use the same computation graph for all instances, adaptive networks can dynamically adjust their structure conditioned on each input. While existing research on adaptive inference mainly focuses on designing more advanced architectures, this paper investigates how to train such networks more effectively. Specifically, we consider a typical adaptive deep network with multiple intermediate classifiers. We present three techniques to improve its training efficacy from two aspects: 1) a Gradient Equilibrium algorithm to resolve the conflict of learning of different classifiers; 2) an Inline Subnetwork Collaboration approach and a One-for-all Knowledge Distillation algorithm to enhance the collaboration among classifiers. On multiple datasets (CIFAR-10, CIFAR-100 and ImageNet), we show that the proposed approach consistently leads to further improved efficiency on top of state-of-the-art adaptive deep networks.

研究动机与目标

解决具有多个中间分类器的自适应深度网络中训练动态不稳定且相互冲突的挑战。
提升多出口网络中分类器之间的协作，以增强整体性能。
开发适用于多样化数据集和模型架构的训练技术，同时不损害推理效率。
通过稳定梯度流动和改善知识迁移，实现自适应推理中更优的准确率-速度权衡。

提出的方法

梯度平衡（GE）在反向传播过程中重新缩放梯度，以保持网络中梯度幅值恒定，降低方差并稳定训练。
内联子网络协作（ISC）利用早期分类器的logits作为先验，指导后续分类器，提升各出口间的一致性与协作性。
全网知识蒸馏（OFA）将最终分类器作为教师模型，将知识蒸馏到早期分类器中，从而提升其性能。
这些技术被应用于多出口架构（如MSDNet），实现基于输入难度的动态早期退出推理。
训练通过标准交叉熵损失进行优化，所提出的模块被集成到网络的残差块中。
该方法在CIFAR-10、CIFAR-100和ImageNet上进行评估，并通过消融研究隔离各组件的贡献。

实验结果

研究问题

RQ1在自适应网络中，如何缓解多个分类器之间训练过程中的梯度冲突？
RQ2中间分类器之间的协作能在多大程度上提升自适应深度网络的性能？
RQ3能否通过来自最终分类器的知识蒸馏，提升早期出口的准确率而不增加推理成本？
RQ4所提出的技术在不同网络深度和数据集上具有怎样的可扩展性？

主要发现

在ImageNet上，计算预算约为1×10⁸ FLOPs时，所提方法使基线MSDNet的准确率提升超过6%。
在CIFAR-100上，完整模型在第2至第4阶段的Top-1准确率相比基线提升超过1%，深层网络的提升超过1.4%。
梯度平衡显著稳定了训练过程，使所有测试网络深度下的验证准确率更高且损失更低。
内联子网络协作提高了各出口间置信度排名的一致性，表现为置信度排名图中聚类更紧密。
全网知识蒸馏显著提升了早期分类器的准确率，证实了从最终分类器蒸馏知识的有效性。
消融研究证实，GE、ISC和OFA三个组件在CIFAR-100和ImageNet上均持续产生积极贡献。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。