[论文解读] Paraphrasing Complex Network: Network Compression via Factor Transfer
提出用于知识蒸馏的因子传递(FT),使用一个 paraphraser 无监督地提取教师因子,学生端的 translator 模仿它们,在多个数据集上实现比 KD 和 AT 更高的性能。
Many researchers have sought ways of model compression to reduce the size of a deep neural network (DNN) with minimal performance degradation in order to use DNNs in embedded systems. Among the model compression methods, a method called knowledge transfer is to train a student network with a stronger teacher network. In this paper, we propose a novel knowledge transfer method which uses convolutional operations to paraphrase teacher's knowledge and to translate it for the student. This is done by two convolutional modules, which are called a paraphraser and a translator. The paraphraser is trained in an unsupervised manner to extract the teacher factors which are defined as paraphrased information of the teacher network. The translator located at the student network extracts the student factors and helps to translate the teacher factors by mimicking them. We observed that our student network trained with the proposed factor transfer method outperforms the ones trained with conventional knowledge transfer methods.
研究动机与目标
- 在嵌入式系统中以尽量少的精度损失实现模型压缩的动机。
- 引入一个 paraphraser 以从预训练网络中提取无监督的教师因子。
- 设计学生网络中的 translator,通过因子传递(FT)损失来模仿教师因子。
- 在图像分类和目标检测基准上展示 FT 的有效性。
提出的方法
- 将教师因子定义为由对重建损失训练的 paraphraser 产生的对教师特征图的改写版本。
- 将教师特征图重新调整为 m x k 因子通道(paraphrase rate k)。
- 在学生的最后一个组之后附加一个 translator,以生成与教师因子对齐的学生因子,并通过 FT 损失对齐。
- 用一个综合损失训练学生:分类损失加上带有对因子进行 L1 归一化的 FT 损失。
- 在 CIFAR-10/100、ImageNet 和 PASCAL VOC 上比较 FT 与 KD 和 AT,并对 paraphraser/translator 组件进行消融研究。
实验结果
研究问题
- RQ1通过一个 paraphraser 和 translator 的因子传递是否能够在学生的表现上优于传统的 KD/AT?
- RQ2paraphrase rate k 如何影响 FT 在不同架构和数据集上的有效性?
- RQ3无监督提取的教师因子是否比直接的激活/软标签传递具有优势?
- RQ4FT 是否对分类之外的任务,如目标检测,也有益处?
主要发现
- FT 在 CIFAR-10/100 的不同教师/学生架构下始终优于 KD 和 AT。
- 保留空间维度和多层的 paraphraser 在因子提取上比卷积自编码器更具效果。
- translator 使学生能够模仿教师因子,即使教师和学生的深度/宽度不同也能改善学习。
- FT 在大规模的 ImageNet 上仍然有效(降低 top-1 错误)并在将其应用于 Faster-RCNN 主干后提升了 PASCAL VOC 2007 的目标检测性能。
- 消融研究表明 paraphaser 与 translator 的结合可以获得最佳性能,且更多的 paraphraser 层可提升结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。