[论文解读] Faster gaze prediction with dense networks and Fisher pruning
本文提出 Fisher pruning,通过贪心地移除 gaze-prediction 模型中冗余的特征图和参数,在结合知识蒸馏的情况下,达到约 10x 的 CPU 加速,同时保持可比的显著性性能。
Predicting human fixations from images has recently seen large improvements by leveraging deep representations which were pretrained for object recognition. However, as we show in this paper, these networks are highly overparameterized for the task of fixation prediction. We first present a simple yet principled greedy pruning method which we call Fisher pruning. Through a combination of knowledge distillation and Fisher pruning, we obtain much more runtime-efficient architectures for saliency prediction, achieving a 10x speedup for the same AUC performance as a state of the art network on the CAT2000 dataset. Speeding up single-image gaze prediction is important for many real-world applications, but it is also a crucial step in the development of video saliency models, where the amount of data to be processed is substantially larger.
研究动机与目标
- 由于迁移学习的显著性网络过参数化而需要更快的凝视预测模型的动机。
- 开发一种有原则的裁剪方法(Fisher pruning)以去除冗余的特征图/参数。
- 将裁剪与知识蒸馏结合以在降低运行时成本的同时保持性能。
- 提供一个框架,通过可调的折衷参数平衡性能和计算成本。
- 证明端到端的训练与裁剪可以在显著性基准上实现有竞争力甚至优越的一般化性能。
提出的方法
- 在 DeepGaze II 的基础上使用 VGG 或 DenseNet 作为骨干网,并配备一个读取网络来生成显著性图。
- 推导 Fisher pruning:使用二阶近似和 Fisher 信息估计从移除一个参数导致的损失增加(方程式 7)。
- 将裁剪扩展为裁剪整个特征图,方法是聚合每个图的梯度(Δk)。
- 引入一个代价惩罚目标,通过 beta 参数在交叉熵损失和计算成本之间进行权衡(方程式 12)。
- 提出对 beta 的自动调整以裁剪具有负组合裁剪信号的特征(方程式 14–15)。
- 通过从一个 DeepGaze II 模型集合进行知识蒸馏进行训练,以在裁剪的同时改进特征表示并进行微调。
实验结果
研究问题
- RQ1Fisher pruning 是否能够提供一个基于梯度的、在不从头重新训练的情况下裁剪神经网络组件以改善显著性表现的原理性标准?
- RQ2在标准基准上对显著性模型进行多大程度的裁剪(在特征图和参数上)仍不显著降低性能?
- RQ3引入计算成本惩罚(beta)是否能产生在保持显著性性能的同时更高效的架构?
- RQ4知识蒸馏是否有助于在对裁剪后的、参数过多的显著性模型进行微调时恢复性能?
- RQ5在裁剪下,FastGaze 与 DenseGaze 的运行时和准确性之间的权衡如何?
主要发现
- Fisher pruning 在显著性性能方面具有竞争力,同时显著降低计算量,在 CAT2000 上实现了接近 10x 的 CPU 加速(在类似 AUC 的情况下)。
- 在裁剪过程中对计算成本进行正则化比未正则化的方法具有更好性能,并且在裁剪过程中更新特征图成本是有益的。
- 裁剪后的 FastGaze 和 DenseGaze 模型在 CAT2000 上的泛化表现与 DeepGaze II 相比在对数似然、NSS 和 SIM 等指标上接近或优于,且 AUC 保持或提高。
- DenseGaze 在裁剪后获得更高的 AUC;FastGaze 由于结构更简单而提供更快的运行时间。
- 使用来自 DeepGaze II 集成的知识蒸馏进行训练有助于微调裁剪后的模型并维持性能。
- 大量裁剪的模型相对于 DeepGaze II 的加速可达 39x,同時显著性图仍然捕捉到关键结构如人脸和文本。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。