[论文解读] SELF-LABELLING VIA SIMULTANEOUS CLUSTERING AND REPRESENTATION LEARNING
论文引入 SeLa,一种原理性自标注方法,通过将标注视为一个带等度分配的最优传输问题,结合 Sinkhorn 基于算法高效求解,能够同时学习表征和伪标签。它在 ImageNet、CIFAR、SVHN 和 Pascal VOC 基线的数据集上提供了最先进的自监督表征。
Combining clustering and representation learning is one of the most promising approaches for unsupervised learning of deep neural networks. However, doing so naively leads to ill posed learning problems with degenerate solutions. In this paper, we propose a novel and principled learning formulation that addresses these issues. The method is obtained by maximizing the information between labels and input data indices. We show that this criterion extends standard crossentropy minimization to an optimal transport problem, which we solve efficiently for millions of input images and thousands of labels using a fast variant of the Sinkhorn-Knopp algorithm. The resulting method is able to self-label visual data so as to train highly competitive image representations without manual labels. Our method achieves state of the art representation learning performance for AlexNet and ResNet-50 on SVHN, CIFAR-10, CIFAR-100 and ImageNet and yields the first self-supervised AlexNet that outperforms the supervised Pascal VOC detection baseline. Code and models are available.
研究动机与目标
- 推动无监督学习深度表示,无需手工标签。
- 提出一个有原理的自标注框架,避免退化解。
- 在等分约束下,通过一个跨熵目标将表示学习与聚类耦合。
- 利用高效的基于 Sinkhorn 的求解器将该方法扩展到数百万张图像和数千个标签。
提出的方法
- 将标注表述为带约束的跨熵目标,引入等分约束以避免退化解。
- 证明标签分配问题是在一个运输多面体上的最优传输问题。
- 放松并用一种快速的 Sinkhorn-Knopp 变体求解传输问题,使用 KL 正则化以实现可扩展性。
- 在表示学习(用当前标签最小化交叉熵)与自标注(通过 Sinkhorn 更新更新伪标签)之间交替。
- 解释其作为在等分约束下最大化数据索引与标签之间互信息的解释。
实验结果
研究问题
- RQ1能否推导出一个同时进行聚类和表示学习的统一目标,保证收敛并避免退化解?
- RQ2通过最优传输形式强制等分是否能提升自监督学习的性能,相对于简单的聚类+交叉熵方法?
主要发现
- 在 SVHN、CIFAR-10、CIFAR-100 与 ImageNet 上实现 AlexNet 与 ResNet-50 的最先进表示学习性能。
- 优于依赖单一监督信号的其他自监督方法,并且在与最近的对比学习方法相比具有竞争力。
- 首次自监督 AlexNet 超越监督的 Pascal VOC 检测基线。
- 标签迁移实验表明,学习到的伪标签在从零开始训练或在不同网络之间迁移时,能够实现竞争力甚至更优的性能。
- 通过等分正则化作为对退化解的正则化器,展现出对数据不平衡的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。