QUICK REVIEW

[论文解读] Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels

Zhilu Zhang, Mert R. Sabuncu|PubMed|May 20, 2018

Machine Learning and Data Classification参考文献 36被引用 1,474

一句话总结

本文提出一种广义损失函数 L_q 及其截断版本 L_q,trunc，在交叉熵与 MAE 之间进行插值，以在面对嘈杂标签时对深度网络进行鲁棒训练，在 CIFAR-10/100 和 Fashion-MNIST 的闭集和开集噪声下取得了显著的经验提升。

ABSTRACT

Deep neural networks (DNNs) have achieved tremendous success in a variety of applications across many disciplines. Yet, their superior performance comes with the expensive cost of requiring correctly annotated large-scale datasets. Moreover, due to DNNs' rich capacity, errors in training labels can hamper performance. To combat this problem, mean absolute error (MAE) has recently been proposed as a noise-robust alternative to the commonly-used categorical cross entropy (CCE) loss. However, as we show in this paper, MAE can perform poorly with DNNs and challenging datasets. Here, we present a theoretically grounded set of noise-robust loss functions that can be seen as a generalization of MAE and CCE. Proposed loss functions can be readily applied with any existing DNN architecture and algorithm, while yielding good performance in a wide range of noisy label scenarios. We report results from experiments conducted with CIFAR-10, CIFAR-100 and FASHION-MNIST datasets and synthetically generated noisy labels.

研究动机与目标

在大规模深度神经网络中，当标签嘈杂时激发鲁棒学习。
引入一个理论上有依据的、能够泛化 CCE 与 MAE 的鲁棒损失族。
分析梯度行为以解释鲁棒性和学习动力学。
提供与标准 DNN 架构兼容的高效训练流程。
在 CIFAR-10、CIFAR-100 与 Fashion-MNIST 的多种噪声设定下展示经验提升。

提出的方法

定义广义损失 L_q(f(x), e_j) = (1 - f_j(x)^q)/q，其中 q ∈ (0,1]，在交叉熵（q->0）与 MAE/未解耦损失（q=1）之间插值。
显示 L_q 的梯度按 f_yi(xi;θ)^q 对样本进行加权，提供对鲁棒性与学习动力学之间的可调平衡。
提出截断版本 L_q_trunc，在对低置信预测设置一个阈值 k 以截断损失，从而收紧噪声容忍界。
推导类内损失之和的界限，并讨论在均匀噪声和类别相关噪声下的鲁棒性。
提出一种 ACS（交替凸优化）方法，通过在网络参数和裁剪指示向量 w 之间交替来优化截断的 L_q。
讨论实际因素，如选择 q（经验上约为 0.7）与 k（实验中设为 0.5），以在收敛性与噪声鲁棒性之间取得平衡。

实验结果

研究问题

RQ1广义损失族 L_q 是否能够在保持 DNN 可学习性的同时提供对嘈杂标签的鲁棒性？
RQ2在闭集与开集噪声下，L_q 与 L_q_trunc 相较于 CCE 和 MAE 的表现如何，在标准基准上？
RQ3阈值 k 与参数 q 在平衡鲁棒性与优化动力学中的作用是什么？
RQ4提出的损失是否可以在不需要额外工具的前提下，与现有架构与优化流程集成？
RQ5在具有不同难度的数据集（CIFAR-10/100、Fashion-MNIST）与噪声类型下，增益是否保持？

主要发现

L_q 损失在 CIFAR-10、CIFAR-100 和 Fashion-MNIST 的均匀噪声和类别相关噪声条件下，相较 CCE 与 MAE 提高了对标签噪声的鲁棒性。
截断的 L_q 损失通过裁剪模糊样本进一步提升了在若干设定中的表现，相较非截断变体显示出增益。
经验上，q 取约 0.7 能在收敛速度与噪声鲁棒性之间取得良好权衡；MAE 在具有挑战性的数据集上表现较差。
在开集噪声情形下（使用外部数据集作为混淆标签），L_q，特别是截断的 L_q，达到与最先进方案竞争或优越的准确性。
该方法实现简单，且可与标准训练管线兼容，无需乾净数据监督或大规模算法变更。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。