[论文解读] Self-supervised Label Augmentation via Input Transformations
论文提出 Self-supervised Label Augmentation (SLA),它学习一个统一任务,通过输入变换的原始标签与自监督标签联合来进行聚合,在测试时实现自蒸馏,在全监督任务上获得强劲提升。
Self-supervised learning, which learns by constructing artificial labels given only the input signals, has recently gained considerable attention for learning representations with unlabeled datasets, i.e., learning without any human-annotated supervision. In this paper, we show that such a technique can be used to significantly improve the model accuracy even under fully-labeled datasets. Our scheme trains the model to learn both original and self-supervised tasks, but is different from conventional multi-task learning frameworks that optimize the summation of their corresponding losses. Our main idea is to learn a single unified task with respect to the joint distribution of the original and self-supervised labels, i.e., we augment original labels via self-supervision of input transformation. This simple, yet effective approach allows to train models easier by relaxing a certain invariant constraint during learning the original and self-supervised tasks simultaneously. It also enables an aggregated inference which combines the predictions from different augmentations to improve the prediction accuracy. Furthermore, we propose a novel knowledge transfer technique, which we refer to as self-distillation, that has the effect of the aggregated inference in a single (faster) inference. We demonstrate the large accuracy improvement and wide applicability of our framework on various fully-supervised settings, e.g., the few-shot and imbalanced classification scenarios.
研究动机与目标
- 激励并利用自监督信号,即使有标注数据时也要使用。
- 避免强制对可能改变语义内容的变换保持不变性。
- 提出一个统一的联合标签学习框架,用自监督标签来增强原始标签。
- 实现基于聚合的推断,在单一模型内模拟集成。
- 引入自蒸馏机制,将聚合知识转移到更快的一次前向推理中。
提出的方法
- 使用 joint softmax rho 在 (original label, transformation) 对上定义 SLA 损失 L_SLA。
- 用 rho_{ij}(z̃; w) 表示 P(i,j|x̃),并最小化交叉熵到 (y, j)。
- 使用跨 M 个变换的聚合来计算 P_aggregated(i|x) 从 logits w_{ij}^T z̃_j。
- 引入自蒸馏 L_SLA+SD 将聚合知识转移到单一分类器 u,使用 KL 散度和可选的 CE 损失。
- 实验两种变换:旋转 (M=4) 和颜色置换 (M=6),以及为提升性能的复合变换。
- 通过在每次迭代输入所有 M 个增强样本来训练以优化 L_SLA,t_1 选为恒等变换。
实验结果
研究问题
- RQ1自监督标签是否能通过避免对不变性约束来提升完全监督数据集的准确率?
- RQ2联合标签 SLA 在准确性和训练难度方面是否相较于传统数据增强或多任务自监督具有好处?
- RQ3在增强样本上的聚合是否能达到集成收益,自蒸馏是否能保持这一好处并加快推断?
- RQ4SLA 变体在标准、少样本、以及不平衡分类任务上的表现如何?
- RQ5组合旋转和颜色置换增强,以及组成变换的影响是什么?
主要发现
- SLA 在 CIFAR-10/100 和 tiny-ImageNet 上使用旋转或颜色置换时,相对于基线取得显著准确性提升。
- 基于旋转的 SLA 在 CIFAR-100 上相对提升最高达 8.60%,在 CUB200 上高达 18.8%,聚合时。
- 聚合(SLA+AG)在使用单一模型的情况下几乎达到独立模型的集成效果。
- 自蒸馏(SLA+SD)提供更快的推断速度并具备竞争力的准确性,与其他增强一起使用时实现提升。
- SLA 在少样本和不平衡设定下提升性能,例如在 5-shot FC100 上相对提升高达 7.05%,在不平衡 CIFAR-100 上高达 13.3%。
- 将多种变换(最多 M=12)组合使用可以在如 CUB200、Stanford Dogs 这类细粒度数据集上进一步改善聚合结果。
- SLA 表现出与当前最先进的增强方法的兼容性,并在结合使用时提高准确性(例如 CIFAR-10/100 与 Cutout、CutMix、AutoAugment 等等)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。