[论文解读] Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels
本文提出一种广义损失函数 L_q 及其截断版本 L_q,trunc,在交叉熵与 MAE 之间进行插值,以在面对嘈杂标签时对深度网络进行鲁棒训练,在 CIFAR-10/100 和 Fashion-MNIST 的闭集和开集噪声下取得了显著的经验提升。
Deep neural networks (DNNs) have achieved tremendous success in a variety of applications across many disciplines. Yet, their superior performance comes with the expensive cost of requiring correctly annotated large-scale datasets. Moreover, due to DNNs' rich capacity, errors in training labels can hamper performance. To combat this problem, mean absolute error (MAE) has recently been proposed as a noise-robust alternative to the commonly-used categorical cross entropy (CCE) loss. However, as we show in this paper, MAE can perform poorly with DNNs and challenging datasets. Here, we present a theoretically grounded set of noise-robust loss functions that can be seen as a generalization of MAE and CCE. Proposed loss functions can be readily applied with any existing DNN architecture and algorithm, while yielding good performance in a wide range of noisy label scenarios. We report results from experiments conducted with CIFAR-10, CIFAR-100 and FASHION-MNIST datasets and synthetically generated noisy labels.
研究动机与目标
- 在大规模深度神经网络中,当标签嘈杂时激发鲁棒学习。
- 引入一个理论上有依据的、能够泛化 CCE 与 MAE 的鲁棒损失族。
- 分析梯度行为以解释鲁棒性和学习动力学。
- 提供与标准 DNN 架构兼容的高效训练流程。
- 在 CIFAR-10、CIFAR-100 与 Fashion-MNIST 的多种噪声设定下展示经验提升。
提出的方法
- 定义广义损失 L_q(f(x), e_j) = (1 - f_j(x)^q)/q,其中 q ∈ (0,1],在交叉熵(q->0)与 MAE/未解耦损失(q=1)之间插值。
- 显示 L_q 的梯度按 f_yi(xi;θ)^q 对样本进行加权,提供对鲁棒性与学习动力学之间的可调平衡。
- 提出截断版本 L_q_trunc,在对低置信预测设置一个阈值 k 以截断损失,从而收紧噪声容忍界。
- 推导类内损失之和的界限,并讨论在均匀噪声和类别相关噪声下的鲁棒性。
- 提出一种 ACS(交替凸优化)方法,通过在网络参数和裁剪指示向量 w 之间交替来优化截断的 L_q。
- 讨论实际因素,如选择 q(经验上约为 0.7)与 k(实验中设为 0.5),以在收敛性与噪声鲁棒性之间取得平衡。
实验结果
研究问题
- RQ1广义损失族 L_q 是否能够在保持 DNN 可学习性的同时提供对嘈杂标签的鲁棒性?
- RQ2在闭集与开集噪声下,L_q 与 L_q_trunc 相较于 CCE 和 MAE 的表现如何,在标准基准上?
- RQ3阈值 k 与参数 q 在平衡鲁棒性与优化动力学中的作用是什么?
- RQ4提出的损失是否可以在不需要额外工具的前提下,与现有架构与优化流程集成?
- RQ5在具有不同难度的数据集(CIFAR-10/100、Fashion-MNIST)与噪声类型下,增益是否保持?
主要发现
- L_q 损失在 CIFAR-10、CIFAR-100 和 Fashion-MNIST 的均匀噪声和类别相关噪声条件下,相较 CCE 与 MAE 提高了对标签噪声的鲁棒性。
- 截断的 L_q 损失通过裁剪模糊样本进一步提升了在若干设定中的表现,相较非截断变体显示出增益。
- 经验上,q 取约 0.7 能在收敛速度与噪声鲁棒性之间取得良好权衡;MAE 在具有挑战性的数据集上表现较差。
- 在开集噪声情形下(使用外部数据集作为混淆标签),L_q,特别是截断的 L_q,达到与最先进方案竞争或优越的准确性。
- 该方法实现简单,且可与标准训练管线兼容,无需乾净数据监督或大规模算法变更。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。