QUICK REVIEW

[论文解读] Training Shallow and Thin Networks for Acceleration via Knowledge Distillation with Conditional Adversarial Networks

Zheng Xu, Yen-Chang Hsu|arXiv (Cornell University)|Sep 1, 2017

Anomaly Detection Techniques and Applications被引用 83

一句话总结

本文提出一种基于GAN的学习损失用于知识蒸馏，以从深、宽的教师网络训练出浅薄、瘦小的学生网络，从而在无需大量精度损失的情况下提高可加速模型的性能。结果表明，在CIFAR-10/100和ImageNet32上，GAN方法优于传统KD，尤其对较小的学生网络。

ABSTRACT

There is an increasing interest on accelerating neural networks for real-time applications. We study the student-teacher strategy, in which a small and fast student network is trained with the auxiliary information learned from a large and accurate teacher network. We propose to use conditional adversarial networks to learn the loss function to transfer knowledge from teacher to student. The proposed method is particularly effective for relatively small student networks. Moreover, experimental results show the effect of network size when the modern networks are used as student. We empirically study the trade-off between inference time and classification accuracy, and provide suggestions on choosing a proper student network.

研究动机与目标

通过知识迁移从强教师那里激励网络加速，训练轻量级学生模型。
提出基于条件对抗网络的损失，以传递超越固定KL散度目标的暗知识。
证明所学损失对浅/薄学生和现代残差架构特别有益。
分析学生容量、深度/宽度以及推理时权衡如何影响性能。

提出的方法

以深、宽的WRN作为固定教师并训练一个浅、薄的WRN学生。
用GAN学习损失替代固定KD损失，其中判别器区分教师 logits 与学生 logits，引导学生产生类似教师的分布。
在GAN损失中加入辅助分类器组件以提供类别层面的对齐，并引入学生 logits 与教师 logits 之间的L1实例级对齐项（L1损失）。
将学习到的基于GAN的损失与监督的交叉熵损失结合用于训练学生（无需手动调节损失权重）。
使用一个3层MLP判别器进行实验，并分析判别器深度、训练稳定性及多任务信号对鲁棒性的影响。

实验结果

研究问题

RQ1GAN学习损失是否比固定KD损失更有效地将暗知识传递给小且快速的学生网络？
RQ2学生容量（深度/宽度）如何影响知识传递的有效性和加速潜力？
RQ3在使用GAN蒸馏的现代残差架构中，推理时间、参数数量与精度之间的权衡如何？
RQ4对于不同尺度的数据集（CIFAR-10/100、ImageNet32），学习到的损失对判别器架构和训练动态是否鲁棒？

主要发现

与标准KD相比，基于GAN的知识传递在CIFAR-10、CIFAR-100和ImageNet32上均能提升小型网络性能。
对于CIFAR-10/100，GAN方法在基线学生的误差上有相对降低，并在测试的温度下优于固定KD。
在ImageNet32上，GAN方法使得更小的学生更接近教师性能，而KD未能达到同样的效果。
GAN方法的好处在于对浅/薄学生最为明显，随着学生容量的增长，效果仍然持续。
判别器深度的增加影响有限，3层MLP在这些实验中已足够且稳定。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。