Skip to main content
QUICK REVIEW

[论文解读] Disentangling Label Distribution for Long-tailed Visual Recognition

Youngkyu Hong, Seungju Han|arXiv (Cornell University)|Dec 1, 2020
Domain Adaptation and Few-Shot Learning参考文献 58被引用 23
一句话总结

本文提出 LADE(标签分布解耦),一种新型损失函数,在训练过程中将源标签分布与模型预测解耦,使模型能够泛化至任意目标标签分布。通过利用 Donsker-Varadhan 表示法实现最优边界估计,LADE 在 CIFAR-100-LT、Places-LT、ImageNet-LT 和 iNaturalist 2018 等长尾基准数据集上达到最先进性能,同时提升了模型校准性。

ABSTRACT

The current evaluation protocol of long-tailed visual recognition trains the classification model on the long-tailed source label distribution and evaluates its performance on the uniform target label distribution. Such protocol has questionable practicality since the target may also be long-tailed. Therefore, we formulate long-tailed visual recognition as a label shift problem where the target and source label distributions are different. One of the significant hurdles in dealing with the label shift problem is the entanglement between the source label distribution and the model prediction. In this paper, we focus on disentangling the source label distribution from the model prediction. We first introduce a simple but overlooked baseline method that matches the target label distribution by post-processing the model prediction trained by the cross-entropy loss and the Softmax function. Although this method surpasses state-of-the-art methods on benchmark datasets, it can be further improved by directly disentangling the source label distribution from the model prediction in the training phase. Thus, we propose a novel method, LAbel distribution DisEntangling (LADE) loss based on the optimal bound of Donsker-Varadhan representation. LADE achieves state-of-the-art performance on benchmark datasets such as CIFAR-100-LT, Places-LT, ImageNet-LT, and iNaturalist 2018. Moreover, LADE outperforms existing methods on various shifted target label distributions, showing the general adaptability of our proposed method.

研究动机与目标

  • 为解决当前长尾视觉识别基准在均匀目标分布上评估所存在的实际局限性,该评估可能无法反映真实世界数据的分布特征。
  • 将长尾视觉识别建模为标签分布偏移问题,其中目标分布与源分布不同。
  • 在训练过程中将源标签分布与模型预测解耦,以提升对任意目标分布的适应能力。
  • 通过减少预测中的过度自信,提升模型校准性,特别是在长尾设置下。

提出的方法

  • 提出 PC Softmax,一种后处理基线方法,通过使用目标标签分布调整模型预测,以缓解与源分布的纠缠。
  • 引入 LADE,一种基于 Donsker-Varadhan 表示法的新型训练阶段损失,可直接将源标签分布与模型 logits 解耦。
  • 利用 Donsker-Varadhan 表示法的最优边界对模型输出进行正则化,使 logits 值在理想条件下收敛至均匀值。
  • 引入一个超参数 α 控制解耦强度的正则化项,确保预测结果稳定且校准良好。
  • 在推理阶段通过调整 logits 的方式 $\log p_t(y) - \log p_u(y)$ 将目标标签分布 $p_t(y)$ 注入模型输出,实现即插即用的适应。
  • 采用期望校准误差(ECE)对置信度校准性进行定量评估,结果表明 LADE 显著提升了模型可靠性。

实验结果

研究问题

  • RQ1一种简单的后处理方法,通过在推理阶段匹配目标标签分布,是否能在长尾视觉识别任务中超越最先进方法?
  • RQ2在训练阶段解耦源标签分布,是否比在推理阶段进行校正能带来对任意目标分布更好的泛化性能?
  • RQ3能否有效利用 Donsker-Varadhan 表示法构建一个可微损失函数,实现标签分布与模型预测的解耦?
  • RQ4LADE 是否能改善模型校准性,特别是降低在长尾数据集上的过度自信现象?
  • RQ5LADE 在多种具有不同不平衡比率和目标分布的长尾基准数据集上表现如何?

主要发现

  • PC Softmax 作为一种简单后处理基线方法,在 CIFAR-100-LT、Places-LT、ImageNet-LT 和 iNaturalist 2018 上均优于最先进方法,其优势源于推理阶段匹配目标标签分布。
  • LADE 在 CIFAR-100-LT(不平衡比 100)、Places-LT、ImageNet-LT 和 iNaturalist 2018 上均实现了最先进 top-1 准确率,且在所有数据集上均保持一致的性能提升。
  • 随着不平衡比的增加,LADE 与 PC Softmax 的性能差距进一步扩大,表明 LADE 在高度不平衡数据上具有更优的泛化能力。
  • 在 ImageNet-LT 上,LADE 的期望校准误差(ECE)为 0.0346,优于 Causal Norm 和 Balanced Softmax,证明其在置信度校准方面表现更优。
  • 可视化结果表明,随着正则化强度 $\alpha$ 增大,LADE 使 logits 值逐渐趋近理论上的均匀值 $\log C$,验证了解耦机制的有效性。
  • LADE 能有效泛化至多种偏移的目标分布,在不同不平衡设置下的多个基准数据集上均表现出一致的性能增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。