Skip to main content
QUICK REVIEW

[论文解读] Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect

Kaihua Tang, Jianqiang Huang|arXiv (Cornell University)|Sep 27, 2020
Fault Detection and Control Systems被引用 231
一句话总结

本论文提出一个因果框架,将 SGD 动量视为长尾分类中的混淆变量,通过去混训练学习,并推断直接效应,在多个基准数据集上实现最先进的结果。

ABSTRACT

As the class size grows, maintaining a balanced dataset across many classes is challenging because the data are long-tailed in nature; it is even impossible when the sample-of-interest co-exists with each other in one collectable unit, e.g., multiple visual instances in one image. Therefore, long-tailed classification is the key to deep learning at scale. However, existing methods are mainly based on re-weighting/re-sampling heuristics that lack a fundamental theory. In this paper, we establish a causal inference framework, which not only unravels the whys of previous methods, but also derives a new principled solution. Specifically, our theory shows that the SGD momentum is essentially a confounder in long-tailed classification. On one hand, it has a harmful causal effect that misleads the tail prediction biased towards the head. On the other hand, its induced mediation also benefits the representation learning and head prediction. Our framework elegantly disentangles the paradoxical effects of the momentum, by pursuing the direct causal effect caused by an input sample. In particular, we use causal intervention in training, and counterfactual reasoning in inference, to remove the "bad" while keep the "good". We achieve new state-of-the-arts on three long-tailed visual recognition benchmarks: Long-tailed CIFAR-10/-100, ImageNet-LT for image classification and LVIS for instance segmentation.

研究动机与目标

  • 推动对长尾分类的原理性理解,超越仅仅使用重加权/重采样等启发式方法。
  • 开发一个因果模型,解释 SGD 动量如何在长尾设置中充当混淆变量和中介。
  • 提出一种一步到位、无需重新训练的解决方案,解耦直接因果效应与中介效应以提升尾部准确性。
  • 在包括长尾 CIFAR-10/-100、ImageNet-LT 和 LVIS 的基准上展示实证提升,以验证理论。

提出的方法

  • 构建一个因果图,包含动量 M、特征 X、头部投影 D,以及预测 Y,用于建模混淆和中介。
  • 应用后门调整以推导去混训练目标,通过逆概率加权估计 P(Y|do(X))。
  • 将 P(Y=i|do(X=x)) 的 logit 表述为一个基于能量的多头、归一化分类器(方程7)。
  • 通过反事实推断,减去间接的中介效应(方程8),计算 Y 给定 X 的总直接效应(TDE)。
  • 针对包含背景类别的任务,使用背景豁免推断以在评估基于 TDE 的预测时保留头部偏置。
  • 提供与先前的两阶段和基于归一化的方法的理论联系(表1),并解释何时去混-TDE 优于替代方法。

实验结果

研究问题

  • RQ1SGD 动量如何因果地影响长尾数据中的特征表示和预测?
  • RQ2我们是否能在保留良好中介效应的同时消除动量的混淆效应,以提高尾部的准确性?
  • RQ3去混训练加直接效应推断(TDE)是否提供一种一步到位、无需重新训练的解决方案,在多个数据集上具有鲁棒提升?
  • RQ4所提出的方法如何与现有的再平衡和归一化方法相关并解释它们?

主要发现

  • 在三个长尾视觉识别基准(Long-tailed CIFAR-10/-100、ImageNet-LT)和 LVIS 的对象检测/分割任务上实现了新的最前沿水平。
  • 显示显著性能提升:在 LVIS 上使用相同 Cascade Mask R-CNN 骨干时,对掩模 AP 提升 3.5% 绝对、框 AP 提升 3.1% 绝对。
  • 表明去混训练加 TDE 推断在多-shot、中等-shot、少数-shot设置下持续优于以往的再平衡和一步到位方法。
  • 为为什么两阶段训练方法有效以及为什么单阶段去混 TDE 可以更有效、训练效率更高提供了原理性解释。
  • 可视化显示去混-TDE 关注判别区域而非广泛上下文,与直接效应强调相符。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。