QUICK REVIEW

[论文解读] Collaborative Learning for Deep Neural Networks

Guocong Song, Wei Koong Chai|arXiv (Cornell University)|May 30, 2018

Advanced Neural Network Applications参考文献 4被引用 102

一句话总结

协同学习在同一网络的相同数据上并行训练多个分类头，利用共识和层间表示共享来提升泛化能力和对标签噪声的鲁棒性，同时不改变推理图。

ABSTRACT

We introduce collaborative learning in which multiple classifier heads of the same network are simultaneously trained on the same training data to improve generalization and robustness to label noise with no extra inference cost. It acquires the strengths from auxiliary training, multi-task learning and knowledge distillation. There are two important mechanisms involved in collaborative learning. First, the consensus of multiple views from different classifier heads on the same example provides supplementary information as well as regularization to each classifier, thereby improving generalization. Second, intermediate-level representation (ILR) sharing with backpropagation rescaling aggregates the gradient flows from all heads, which not only reduces training computational complexity, but also facilitates supervision to the shared layers. The empirical results on CIFAR and ImageNet datasets demonstrate that deep neural networks learned as a group in a collaborative way significantly reduce the generalization error and increase the robustness to label noise.

研究动机与目标

在不增加额外推理成本的前提下，提升泛化能力和鲁棒性。
提出一个在训练中添加多个头并共享中间表示的框架。
利用共识预测（软标签）和反向传播重新缩放来稳定训练。
在 CIFAR 和 ImageNet 上进行评估，以展示准确性提升及对标签噪声的鲁棒性。

提出的方法

在训练图中引入多个分类头，并共享中间表示。
定义一个联合损失，将硬标签的真值损失与来自同侪头的软共识损失结合起来。
使用同时的随机梯度下降来优化所有头的总损失，并加上 ILR 反向传播重新缩放以在各头之间稳定梯度。
引入温度缩放的软标签以平衡硬监督和软监督（β 和 T 参数）。
展示 ILR 共享模式（简单和分层）以在降低内存和训练时间的同时提高准确性。
在 CIFAR-10/ ResNet-DenseNet 变体以及 ImageNet 的 ResNet-50 上进行评估，以与基线和蒸馏方法进行对比。

实验结果

研究问题

RQ1协同学习是否在不增加推理成本的前提下提升泛化能力？
RQ2ILR 共享与反向传播重新缩放如何影响训练稳定性与梯度流动？
RQ3与标准训练和蒸馏相比，该方法对标签噪声是否鲁棒？
RQ4增加头的数量及不同的 ILR 共享模式对性能有何影响？
RQ5在大规模数据集上，协同学习与蒸馏和标签平滑相比的效果如何？

主要发现

与单实例基线相比，协同学习在 CIFAR-10 的 ResNet-32、ResNet-110 和 DenseNet-40-12 上的一致性地降低了泛化误差。
增加头的数量并使用 ILR 共享（尤其是分层 ILR）在 CIFAR-10 上带来进一步的准确性提升。
同时优化在准确性和速度上都优于逐头优化。
反向传播重新缩放稳定了共享层的梯度流动并提高了准确性，优于无缩放或损失缩放。
在 ImageNet 上，使用两头或四头并具 ILR 共享的协同学习将 top-1 错误从 23.47% 的基线降至 22.70%（2 头简单 ILR）和 22.29%（4 头分层 ILR），并在训练时间和内存权衡方面具有优势。
协同学习在对标签噪声的鲁棒性方面表现出更大的提升，随着噪声水平的提高收益更大。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。