[论文解读] Sacrificing Accuracy for Reduced Computation: Cascaded Inference Based on Softmax Confidence.
本文提出一种级联推理方法,通过利用深度神经网络中间层的 softmax 置信度分数动态调整推理过程中的计算成本,以触发早期终止。通过基于这些置信度水平进行早期停止,该方法在仅造成极小精度损失(SVHN 上为 1.4%)的情况下实现了显著的速度提升(最高达 2.16×),从而在无需微调的情况下实现实时的速度-精度权衡。
We study the tradeoff between computational effort and accuracy in a cascade of deep neural networks. During inference, early termination in the cascade is controlled by confidence levels derived directly from the softmax outputs of intermediate classifiers. The advantage of early termination is that classification is performed using less computation, thus adjusting the computational effort to the complexity of the input. Moreover, dynamic modification of confidence thresholds allow one to trade accuracy for computational effort without requiring retraining. Basing of early termination on softmax classifier outputs is justified by experimentation that demonstrates an almost linear relation between confidence levels in intermediate classifiers and accuracy. Our experimentation with architectures based on ResNet obtained the following results. (i) A speedup of 1.5 that sacrifices 1.4% accuracy with respect to the CIFAR-10 test set. (ii) A speedup of 1.19 that sacrifices 0.7% accuracy with respect to the CIFAR-100 test set. (iii) A speedup of 2.16 that sacrifices 1.4% accuracy with respect to the SVHN test set.
研究动机与目标
- 解决深度神经网络推理中计算效率与模型精度之间的权衡问题。
- 实现在不重新训练模型的前提下,对每个输入动态调整计算量。
- 开发一种机制,基于中间层的置信度分数,在级联分类器中实现早期终止。
- 验证 softmax 置信度与预测精度之间存在强相关性,从而证明其可作为停止准则的合理性。
提出的方法
- 该方法采用一系列深度神经网络分类器级联结构,每个分类器输出 softmax 概率值。
- 当某个中间分类器的输出置信度超过一个可动态调整的阈值时,触发早期终止。
- 置信度阈值在推理时进行调优,以在速度与精度之间取得平衡,从而实现在无需重新训练的情况下进行运行时权衡。
- 实证结果表明,中间分类器的置信度分数与预测精度之间几乎呈线性相关,支持其作为可靠性代理指标的使用。
- 该方法被应用于基于 ResNet 的架构,并在 CIFAR-10、CIFAR-100 和 SVHN 数据集上进行了验证。
- 系统支持动态调整阈值,以在模型部署后实现期望的速度-精度权衡。
实验结果
研究问题
- RQ1中间网络层的 softmax 置信度分数是否能可靠预测分类精度,并可作为早期终止的基础?
- RQ2通过早期终止,计算效率最多可提升多少,同时保持精度损失在可接受范围内?
- RQ3是否可以在推理时动态调整速度-精度权衡,而无需重新训练模型?
- RQ4中间 softmax 置信度与最终精度之间的相关性在不同数据集上如何变化?
- RQ5在实际应用中,该方法可实现多大的加速,以及相应的精度损失是多少?
主要发现
- 在 CIFAR-10 数据集上,该方法实现了 1.5× 的加速,仅损失 1.4% 的精度,相比完整模型。
- 在 CIFAR-100 上,实现了 1.19× 的加速,精度下降 0.7%。
- 在 SVHN 上,获得了最高的 2.16× 加速,伴随 1.4% 的精度下降。
- 中间 softmax 置信度与最终预测精度之间的相关性接近线性,验证了将置信度用作可靠停止准则的合理性。
- 通过调节置信度阈值,该方法可在运行时调整速度-精度权衡,而无需重新训练。
- 该方法在多种数据集上均保持优异性能,证明了基于置信度的早期停止机制具有良好的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。