QUICK REVIEW

[论文解读] Rethinking Image Mixture for Unsupervised Visual Representation Learning

Zhiqiang Shen, Zechun Liu|arXiv (Cornell University)|Mar 11, 2020

Advanced Image and Video Retrieval Techniques参考文献 59被引用 25

一句话总结

本文提出 Un-Mix，一种简单而有效的无监督数据增强技术，通过在自监督表示学习过程中对预测分布进行软化，应用图像混合来实现。通过采用 mixup 风格的插值方式扰动输入图像并分配新的伪标签，Un-Mix 在多个基准测试中提升了模型的鲁棒性与泛化能力，在不改变超参数或训练流程的前提下，相较于 SimCLR、BYOL 和 MoCo 等基础方法，实现了 1–3% 的准确率提升。

ABSTRACT

In supervised learning, smoothing label or prediction distribution in neural network training has been proven useful in preventing the model from being over-confident, and is crucial for learning more robust visual representations. This observation motivates us to explore ways to make predictions flattened in unsupervised learning. Considering that human-annotated labels are not adopted in unsupervised learning, we introduce a straightforward approach to perturb input image space in order to soften the output prediction space indirectly, meanwhile, assigning new label values in the unsupervised frameworks accordingly. Despite its conceptual simplicity, we show empirically that with the simple solution -- Unsupervised image mixtures (Un-Mix), we can learn more robust visual representations from the transformed input. Extensive experiments are conducted on CIFAR-10, CIFAR-100, STL-10, Tiny ImageNet and standard ImageNet with popular unsupervised methods SimCLR, BYOL, MoCo V1&V2, etc. Our proposed image mixture and label assignment strategy can obtain consistent improvement by 1~3% following exactly the same hyperparameters and training procedures of the base methods.

研究动机与目标

为解决无监督视觉表示学习中缺乏标签平滑的问题，即模型可能变得过度自信。
探索不依赖人工标注标签的间接软化预测分布的方法。
开发一种即插即用的增强策略，以提升自监督学习框架中的鲁棒性。
通过在标准基准上使用流行的无监督方法，评估基于图像混合的输入空间扰动在性能上的有效性。
证明在对现有训练流程进行最小修改的前提下，Un-Mix 在多种数据集和模型架构上均能实现一致的性能提升。

提出的方法

提出 Un-Mix 方法，通过在图像对之间应用 mixup 风格的插值，生成增强的训练样本。
基于组成图像的原始标签，使用加权平均生成软标签，为混合图像分配伪标签。
直接在输入空间中执行图像混合与标签分配，避免了对模型层面的标签平滑或网络结构修改的需求。
可无缝集成到 SimCLR、BYOL、MoCo V1 和 MoCo V2 等现有无监督学习框架中。
使用标准训练流程与超参数，确保与现有方法的兼容性与易用性。
采用对称 mixup 策略，以保持对比学习与基于动量的训练目标的一致性。

实验结果

研究问题

RQ1在输入空间中通过图像混合与伪标签分配，能否提升无监督视觉表示的鲁棒性？
RQ2通过数据增强软化预测分布，是否能提升自监督学习中的泛化能力？
RQ3像 Un-Mix 这样简单且即插即用的方法，是否能在多种数据集和无监督学习方法中实现一致的性能增益？
RQ4Un-Mix 的性能提升是否依赖于超参数调优或模型架构？
RQ5与其它数据增强策略相比，Un-Mix 在准确率与稳定性方面表现如何？

主要发现

Un-Mix 在多个无监督学习基准测试中实现了 1–3% 的一致性能提升，涵盖 CIFAR-10、CIFAR-100、STL-10、Tiny ImageNet 和 ImageNet。
性能提升无需修改任何超参数或训练流程，证明了该方法的兼容性与即插即用特性。
该提升在不同自监督方法中均保持稳定，包括 SimCLR、BYOL、MoCo V1 和 MoCo V2。
通过扰动输入空间，该方法有效软化了预测分布，降低了模型的过度自信程度。
实证结果表明，Un-Mix 提升了表示质量，从而在线性评估协议中带来了更高的下游准确率。
该方法计算效率高，无需额外模型参数或复杂的训练调度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。