QUICK REVIEW

[论文解读] Adaptive Regularization of Labels

Qianggang Ding, Sifan Wu|arXiv (Cornell University)|Aug 15, 2019

Advanced Neural Network Applications参考文献 26被引用 23

一句话总结

该论文提出了一种自适应标签正则化（ALR）方法，通过利用残差相关矩阵和双损失机制，自适应地对标签进行正则化，使深度神经网络能够从误分类样本中学习。该方法在无需教师网络的情况下，显著提升了图像和文本分类任务的泛化性能，实现了最先进的性能表现，且参数开销极低。

ABSTRACT

Recently, a variety of regularization techniques have been widely applied in deep neural networks, such as dropout, batch normalization, data augmentation, and so on. These methods mainly focus on the regularization of weight parameters to prevent overfitting effectively. In addition, label regularization techniques such as label smoothing and label disturbance have also been proposed with the motivation of adding a stochastic perturbation to labels. In this paper, we propose a novel adaptive label regularization method, which enables the neural network to learn from the erroneous experience and update the optimal label representation online. On the other hand, compared with knowledge distillation, which learns the correlation of categories using teacher network, our proposed method requires only a minuscule increase in parameters without cumbersome teacher network. Furthermore, we evaluate our method on CIFAR-10/CIFAR-100/ImageNet datasets for image recognition tasks and AGNews/Yahoo/Yelp-Full datasets for text classification tasks. The empirical results show significant improvement under all experimental settings.

研究动机与目标

为解决单热编码标签忽略标签相关性、无法捕捉类别间语义相似性的问题。
克服知识蒸馏中硬损失与软损失使预测向相反方向优化的矛盾。
开发一种利用错误预测作为信息信号以提升泛化能力的标签正则化方法。
在不依赖复杂教师网络的前提下，实现与知识蒸馏相当的性能。

提出的方法

引入残差相关矩阵，以建模将一个类别误分类为另一个类别的概率，从而随时间捕捉标签之间的关系。
将残差标签定义为来自残差相关矩阵的错误分类的软概率分布。
提出双损失函数：残差损失（$\mathcal{L}_{res}$）促使模型预测与残差标签对齐，更新损失（$\mathcal{L}_{upd}$）则根据当前模型预测动态调整残差标签。
采用移动平均更新规则，在训练过程中动态优化残差标签，确保其一致性和稳定性。
端到端地应用于监督学习，无需外部教师网络或预计算的软标签。
采用温度控制的软化机制，逐步平滑残差标签，从而减缓过拟合。

实验结果

研究问题

RQ1从误分类样本中学习是否能提升监督深度学习中的模型泛化能力？
RQ2为何知识蒸馏中硬标签与软标签的结合会导致优化目标相互冲突？
RQ3从模型错误中衍生出的残差标签能否构成一致且稳定的正则化信号？
RQ4如何在不依赖独立教师网络的前提下实现标签正则化？
RQ5自适应、在线更新的标签表示方法是否优于静态标签平滑或知识蒸馏？

主要发现

在CIFAR-100上，ALR-S仅使用1×参数量即达到70.97%的准确率，性能与DML相当，但参数量仅为后者的一半。
在ImageNet-12上，ALR-S使用ResNet-32模型达到80.70%的top-1准确率，优于基线模型，并达到最先进方法的水平。
残差相关矩阵显示出随时间保持一致的误分类模式，例如'猫'常被误分类为'狗'，反之亦然。
可视化结果表明，残差标签随时间逐渐变软，表明对错误预测的置信度降低，过拟合速度减缓。
ALR在多种架构（ResNet、WideResNet、TextRNN、CharCNN、Transformer）上均对图像和文本基准数据集实现了稳定的性能提升。
该方法优于标签平滑和知识蒸馏，且将ALR与标签平滑结合可进一步提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。