Skip to main content
QUICK REVIEW

[论文解读] CReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning

Chen Wei, Kihyuk Sohn|arXiv (Cornell University)|Feb 18, 2021
Imbalanced Data Classification Techniques参考文献 45被引用 33
一句话总结

CReST 引入了一种类别重采样的自训练框架(以及其渐进变体 CReST+),通过优先添加少数类伪标签并逐步对齐分布来改进不平衡的半监督学习,在长尾数据集上相对于最先进的 SSL 基线获得显著提升。

ABSTRACT

Semi-supervised learning on class-imbalanced data, although a realistic problem, has been under studied. While existing semi-supervised learning (SSL) methods are known to perform poorly on minority classes, we find that they still generate high precision pseudo-labels on minority classes. By exploiting this property, in this work, we propose Class-Rebalancing Self-Training (CReST), a simple yet effective framework to improve existing SSL methods on class-imbalanced data. CReST iteratively retrains a baseline SSL model with a labeled set expanded by adding pseudo-labeled samples from an unlabeled set, where pseudo-labeled samples from minority classes are selected more frequently according to an estimated class distribution. We also propose a progressive distribution alignment to adaptively adjust the rebalancing strength dubbed CReST+. We show that CReST and CReST+ improve state-of-the-art SSL algorithms on various class-imbalanced datasets and consistently outperform other popular rebalancing methods. Code has been made available at https://github.com/google-research/crest.

研究动机与目标

  • 激发并解决在标注数据和未标注数据具有不平衡分布时,SSL 这一被较少研究的问题。
  • 研究现有 SSL 方法在不平衡数据上的偏差,并识别少数类高精度但低召回率的问题。
  • 提出一种自训练框架 (CReST),通过对少数类伪标签样本更积极地采样来重新平衡标记集。
  • 并扩展为分布对齐(CReST+),以在自训练过程中逐步对齐预测以抵消模型偏差。
  • 在 CIFAR-LT 和 ImageNet127 基准测试上,在不同标签比例和不平衡比下,展示少数类召回率和总体准确率的提升。

提出的方法

  • 观察到在 SSL 中,少数类伪标签的精确度虽高,但少数类的召回率仍然很低。
  • 迭代地重新训练基线 SSL 模型,并从未标注数据中有选择地采样伪标签数据来扩展标记集,依据估计的类别分布偏向少数类。
  • 使用采样率 mu_l,等于 ((N_{L+1-l}/N_1))^alpha 的正比关系来决定要添加多少来自类别 l 的伪标签样本(alpha > 0 倾向于少数类)。
  • 引入带有温度缩放 t 的渐进式分布对齐(DA),以控制跨代伪标签的再比例(CReST+)。
  • 在代际之间逐步降低 t,以在平衡精确度和召回率的同时,在后期代增加重采样的影响。
  • 在 CIFAR-LT 和 ImageNet127 上使用 FixMatch 和 MixMatch 进行基准测试,显示相对于基线和先前方法的改进。

实验结果

研究问题

  • RQ1在类别不平衡数据上,SSL 的性能如何下降,是否可以利用少数类的高精度来提升召回率?
  • RQ2一个类别重采样的自训练循环是否能提升在标注/未标注数据不平衡时 SSL 方法的召回率和整体准确性?
  • RQ3渐进式分布对齐(CReST+)是否进一步提升伪标签质量并降低跨代的模型偏差?
  • RQ4在长尾 CIFAR(CIFAR10-LT、CIFAR100-LT)和大规模 ImageNet127 数据集上,在变化的标签比例下,所提出的方法表现如何?
  • RQ5CReST 和 CReST+ 是否优于像 DARP 等最新的不平衡 SSL 方法以及标准的重采样方法?

主要发现

  • CReST 在评估的不平衡和标签比例下始终优于基线 SSL 方法,在 CIFAR-LT 基准上准确率提升高达 11.8%。
  • 通过渐进式分布对齐,CReST+ 进一步提升性能,在多种设定下相对于 CReST 取得额外提升。
  • 在 CIFAR-LT(gamma 高达 200)和 10–30% 标注数据情况下,CReST/CReST+ 超越 FixMatch 和 MixMatch 基线以及若干重平衡基线。
  • 在 ImageNet127 的 10% 标注数据情况下,CReST+ 相对于基线实现 7.9% 的召回率提升。
  • 消融研究表明,非零的 alpha(类别重采样采样率)对提升至关重要,CReST+ 中逐步调度的温度 t 能有效平衡精确度与召回率。
  • 将 CReST+ 与 logits-adjustment 后处理(LA)结合可带来进一步改善,在某些比较中达到最佳结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。