[论文解读] Deep Mutual Learning
本文提出深度互知识学习(DML),一种协作训练策略,其中多个学生网络通过软标签蒸馏实时相互教学,而非依赖预训练的教师网络。该方法通过相互概率匹配促进更高的后验熵和更平坦的极小值,从而在泛化能力和性能上优于传统蒸馏和独立训练,甚至超越从强大静态教师网络蒸馏得到的模型。
Model distillation is an effective and widely used technique to transfer knowledge from a teacher to a student network. The typical application is to transfer from a powerful large network or ensemble to a small network, that is better suited to low-memory or fast execution requirements. In this paper, we present a deep mutual learning (DML) strategy where, rather than one way transfer between a static pre-defined teacher and a student, an ensemble of students learn collaboratively and teach each other throughout the training process. Our experiments show that a variety of network architectures benefit from mutual learning and achieve compelling results on CIFAR-100 recognition and Market-1501 person re-identification benchmarks. Surprisingly, it is revealed that no prior powerful teacher network is necessary -- mutual learning of a collection of simple student networks works, and moreover outperforms distillation from a more powerful yet static teacher.
研究动机与目标
- 解决模型蒸馏的局限性,即依赖于预训练的、强大的教师网络,而该教师网络可能不可用或并非最优。
- 探索未训练的学生网络之间协作学习是否能在无静态教师的情况下提升泛化能力和性能。
- 研究同伴之间的相互蒸馏是否能产生优于传统蒸馏或独立训练的模型。
- 分析相互学习如何导致损失曲面中更平坦、更鲁棒的极小值。
提出的方法
- 每个学生网络使用两种损失进行训练:使用真实标签的标准交叉熵损失,以及与同组其他学生网络预测类别概率对齐的模仿损失。
- 模仿损失通过同伴网络的软标签计算,促使每个学生匹配其同伴的置信度分布,包括非真实类别(次级)的概率。
- 该方法支持同构和异构架构,包括大模型与小模型的组合。
- 一种替代变体DML_e使用同伴网络的集成作为教学信号,而非单个同伴,但其性能低于标准DML。
- 该方法在多个架构和数据集(包括CIFAR-100和Market-1501)上应用,均取得一致的性能提升。
- 理论分析将DML的成功归因于促进了更高的后验熵和更平坦的极小值,从而增强泛化能力。
实验结果
研究问题
- RQ1一群未经训练的简单学生网络能否超越从强大预训练教师网络蒸馏得到的模型?
- RQ2同伴之间的相互学习是否能带来优于独立训练或标准蒸馏的泛化能力?
- RQ3尽管从随机初始化开始且缺乏强教师,为何相互学习能提升性能?
- RQ4相互蒸馏如何导致损失曲面中更平坦、更鲁棒的极小值?
- RQ5性能提升是否依赖于团队中网络的数量?异构架构是否也能受益?
主要发现
- DML训练的模型在Market-1501上的mAP达到85.6%(使用5个MobileNet),高于从强教师蒸馏或独立训练的模型。
- DML模型在CIFAR-100上的后验熵为1.7099,显著高于独立训练模型的0.2602,表明概率估计更分散且更鲁棒。
- DML模型对参数扰动表现出更强鲁棒性,添加高斯噪声后训练损失仅小幅上升,表明其具有更平坦的极小值。
- 即使在ResNet-32等大模型上,相互训练也带来性能提升,优于独立训练版本,在CIFAR-100和Market-1501上均表现更优。
- DML训练模型的集成性能优于任一单个模型,展现出强大的集成能力。
- DML_e(使用集成作为教学信号)性能低于标准DML,表明个体同伴信号在促进泛化方面比集成信号更有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。