Skip to main content
QUICK REVIEW

[论文解读] Distribution Alignment: A Unified Framework for Long-tail Visual Recognition

Songyang Zhang, Zeming Li|arXiv (Cornell University)|Mar 30, 2021
Domain Adaptation and Few-Shot Learning参考文献 46被引用 24
一句话总结

本文提出 DisAlign,一种用于长尾视觉识别的统一两阶段框架,通过分布对齐校准分类器输出来提升性能。它采用自适应校准函数和广义重加权,将预测结果与平衡的类别先验对齐,实现了在 ImageNet-LT、iNaturalist、ADE20k 和 LVIS 等长尾基准数据集上图像分类、语义分割和目标检测任务的最先进性能。

ABSTRACT

Despite the recent success of deep neural networks, it remains challenging to effectively model the long-tail class distribution in visual recognition tasks. To address this problem, we first investigate the performance bottleneck of the two-stage learning framework via ablative study. Motivated by our discovery, we propose a unified distribution alignment strategy for long-tail visual recognition. Specifically, we develop an adaptive calibration function that enables us to adjust the classification scores for each data point. We then introduce a generalized re-weight method in the two-stage learning to balance the class prior, which provides a flexible and unified solution to diverse scenarios in visual recognition tasks. We validate our method by extensive experiments on four tasks, including image classification, semantic segmentation, object detection, and instance segmentation. Our approach achieves the state-of-the-art results across all four recognition tasks with a simple and unified framework. The code and models will be made publicly available at: https://github.com/Megvii-BaseDetection/DisAlign

研究动机与目标

  • 解决两阶段学习框架中由有偏决策边界导致的长尾视觉识别性能差距。
  • 探究在类别不平衡数据集上训练的深度网络中尾部类别性能差的根源。
  • 开发一种统一且原理清晰的方法,用于校准分类分数,且无需大量超参数调优。
  • 实现在长尾数据分布下多种视觉识别任务(图像分类、语义分割、目标检测和实例分割)的有效迁移。
  • 提供一种灵活的广义重加权策略,结合类别先验以平衡头部、中段和尾部类别的预测。

提出的方法

  • 提出两阶段学习框架:首先在不平衡数据上预训练表示主干网络,然后通过分布对齐微调分类器头。
  • 设计一种自适应校准函数,对分类分数应用输入相关的可学习幅度和边界,实现置信度感知的分布对齐。
  • 引入一种广义重加权机制,建模平衡的类别先验,并根据类别频率动态调整损失权重。
  • 将预测的类别分布与偏好平衡预测的参考分布对齐,减少对头部类别的偏见。
  • 将分布对齐模块作为轻量级、即插即用的组件集成,可应用于多种模型和主干架构。
  • 在部分实验中使用余弦分类器头,以进一步提升泛化能力并减少对稀有类别的过拟合。
Figure 1 : Per-class performance of the two-stage learning baseline and our empirical classification bound on ImageNet-LT val split. Two methods share the same representation while our bound setting retrains the classifier head with the balanced full dataset.
Figure 1 : Per-class performance of the two-stage learning baseline and our empirical classification bound on ImageNet-LT val split. Two methods share the same representation while our bound setting retrains the classifier head with the balanced full dataset.

实验结果

研究问题

  • RQ1尽管具备良好的特征表示,两阶段长尾识别中理想模型与基线模型之间的性能差距是由什么造成的?
  • RQ2是否可以采用统一且原理清晰的分布对齐策略,在无需任务特定调优的情况下提升多种视觉识别任务的性能?
  • RQ3对分类分数进行自适应校准在长尾设置下如何影响预测偏见?
  • RQ4基于类别先验的广义重加权在多大程度上能提升对尾部和中段类别的泛化能力?
  • RQ5所提出的方法是否在显著提升稀有类别和长尾类别准确率的同时,仍能保持对头部类别的性能?

主要发现

  • 在 ImageNet-LT 上,DisAlign 使用 ResNet-50 达到 32.4% 的 top-1 准确率,比之前最先进方法高出 2.5 个百分点。
  • 在 iNaturalist 上,DisAlign 达到 41.7% 的 top-1 准确率,比基线高出 3.1%,且在尾部类别上取得显著提升。
  • 在 ADE20k 语义分割任务上,DisAlign 使用 ResNeSt-101 将 mIoU 提升 2.3 个百分点(达到 47.8),创下新最先进记录。
  • 在 LVIS 目标检测任务上,DisAlign 使用 ResNeXt-101 达到 33.7% 的 AP,比基线高出 3.0%,在稀有类别上提升显著。
  • 在 LVIS 实例分割任务上,DisAlign 使用 ResNeXt-101 将 mask AP 从 27.3% 提升至 29.7%,在尾部类别上表现强劲。
  • 消融实验确认,自适应校准和广义重加权组件至关重要,二者均对性能提升有显著贡献。
Figure 2 : Empirical analysis of the performance bottleneck. Left : Baseline vs. ideal performance for representations learned with different sampling strategy. Right : Comparison of prior arts and ideal performance for the classifier head calibration. Cls-Bound : ideal performance bound. IB : insta
Figure 2 : Empirical analysis of the performance bottleneck. Left : Baseline vs. ideal performance for representations learned with different sampling strategy. Right : Comparison of prior arts and ideal performance for the classifier head calibration. Cls-Bound : ideal performance bound. IB : insta

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。