QUICK REVIEW

[论文解读] Asymmetric Loss For Multi-Label Classification

Emanuel Ben-Baruch, Tal Ridnik|arXiv (Cornell University)|Sep 29, 2020

Advanced Neural Network Applications参考文献 40被引用 64

一句话总结

该论文为多标签分类引入 Asymmetric Loss (ASL)，以解决严重的负样本–正样本不平衡和错误标注数据的问题，结合非对称聚焦和非对称概率偏移，在不改变架构的前提下在主要数据集上达到最先进的 mAP。它还提供一种自适应方案，在训练过程中动态调整非对称性。

ABSTRACT

In a typical multi-label setting, a picture contains on average few positive labels, and many negative ones. This positive-negative imbalance dominates the optimization process, and can lead to under-emphasizing gradients from positive labels during training, resulting in poor accuracy. In this paper, we introduce a novel asymmetric loss ("ASL"), which operates differently on positive and negative samples. The loss enables to dynamically down-weights and hard-thresholds easy negative samples, while also discarding possibly mislabeled samples. We demonstrate how ASL can balance the probabilities of different samples, and how this balancing is translated to better mAP scores. With ASL, we reach state-of-the-art results on multiple popular multi-label datasets: MS-COCO, Pascal-VOC, NUS-WIDE and Open Images. We also demonstrate ASL applicability for other tasks, such as single-label classification and object detection. ASL is effective, easy to implement, and does not increase the training time or complexity. Implementation is available at: https://github.com/Alibaba-MIIL/ASL.

研究动机与目标

解决多标签图像分类中严重的负样本–正样本标签不平衡挑战。
开发一个损失函数，在降低易错负样本权重的同时丢弃极易错的负样本，并保留正梯度信号。
设计一个自适应机制，在训练过程中动态调整非对称性以简化超参数调试。
证明 ASL 在主流多标签基准数据集上实现最先进的结果且无需架构更改。
展示 ASL 在多标签分类以外的相关任务中的适用性。

提出的方法

定义带有标签逐个的 logits z_k 和概率 p = sigmoid(z) 的二元交叉熵/焦点损失框架。
通过将正负聚焦参数解耦（gamma_plus 和 gamma_minus）引入非对称聚焦。
引入非对称概率偏移，其中负向概率偏移 p_m = max(p - m, 0) 以实现对易错负样本的硬阈值。
将 ASL 表述为 L_plus = (1 - p)^{gamma_plus} log(p) 和 L_minus = (p_m)^{gamma_minus} log(1 - p_m)。
可选地将 gamma_plus 设为 0，以保持正样本损失为标准 CE，同时调整 gamma_minus 以实现非对称性。
提供梯度和概率分析以展示其优势，包括拒绝错误标注的负样本和平衡样本贡献。
提出一种自适应非对称性方案，通过 gamma_minus <- gamma_minus + lambda(Delta p - Delta p_target) 来更新以达到期望的概率差 Delta p。
证明将两种非对称性结合时，性能优于单一非对称性或静态加权的情况。

实验结果

研究问题

RQ1是否通过解决负样本–正样本不平衡的非对称损失在不改变网络结构的情况下提升多标签分类性能？
RQ2非对称聚焦与概率偏移如何有助于改进梯度流动以及对错误标注负样本的鲁棒性？
RQ3ASL 是否能够在训练过程中动态调整非对称性，以简化超参数调优并保持或提升性能？
RQ4ASL 是否在多种主流多标签数据集和骨干网络上有效，并是否扩展到与之相关的任务，如单标签分类与目标检测？

主要发现

Method	mAP	CF1	OF1
CADM	82.3	77.0	79.6
ML-GCN	83.0	78.0	80.3
KSSNet	83.7	77.2	81.5
MS-CMA	83.8	78.4	81.0
MCAR	83.8	78.0	80.3
ASL (ResNet101)	85.0	80.3	82.3
ASL (TResNet-L)	86.6	81.4	81.8

ASL 在 MS-COCO、Pascal-VOC、NUS-WIDE 和 Open Images 上超越交叉熵和焦点损失，达到最先进结果。
在 MS-COCO 上，使用 ResNet101 的 ASL 达到 85.0 mAP（CE 为 84.0，焦点为 85.1），ASL 与 TResNet-L 的 mAP 达到 86.6（Top-1）。
将非对称聚焦与概率偏移结合能获得最佳的 MS-COCO 结果（86.6 mAP），而单一机制则不及此。
自适应非对称性实验显示在 Delta p_target 设置下获得更高的 mAP（最高可达 86.4），尽管某些固定 ASL 变体在特定情形下也可达到略高分数。
ASL 在多种骨干网络（OFA-595、ResNet101、TResNet-L）上提升性能，并且从更好的预训练和更高的输入分辨率（如从 448 提升到 640）中受益。
ASL 还对相关任务如单标签分类与目标检测显示出收益，表明更广泛的适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。