QUICK REVIEW

[论文解读] CompRess: Self-Supervised Learning by Compressing Representations

Soroush Abbasi Koohpayegani, Ajinkya Tejankar|arXiv (Cornell University)|Oct 28, 2020

Domain Adaptation and Few-Shot Learning参考文献 60被引用 24

一句话总结

该论文提出 CompRess，一种自监督模型压缩方法，通过模仿大型预训练自监督教师模型（例如 SimCLR ResNet-50x4）在嵌入空间中对数据点的相对相似性排名，将知识从教师模型迁移至更小的学生模型。该方法在 ImageNet 上实现了最先进性能，压缩后的 AlexNet 在线性评估中准确率高达 59.0%，超过全监督 AlexNet 的 56.5%；在最近邻评估中准确率为 50.7%，显著优于监督基线的 41.4%。这是首次自监督模型在 ImageNet 分类任务本身上超越其监督对应模型。

ABSTRACT

Self-supervised learning aims to learn good representations with unlabeled data. Recent works have shown that larger models benefit more from self-supervised learning than smaller models. As a result, the gap between supervised and self-supervised learning has been greatly reduced for larger models. In this work, instead of designing a new pseudo task for self-supervised learning, we develop a model compression method to compress an already learned, deep self-supervised model (teacher) to a smaller one (student). We train the student model so that it mimics the relative similarity between the data points in the teacher's embedding space. For AlexNet, our method outperforms all previous methods including the fully supervised model on ImageNet linear evaluation (59.0% compared to 56.5%) and on nearest neighbor evaluation (50.7% compared to 41.4%). To the best of our knowledge, this is the first time a self-supervised AlexNet has outperformed supervised one on ImageNet classification. Our code is available here: https://github.com/UMBCvision/CompRess

研究动机与目标

开发一种从大型自监督教师模型向小型学生模型迁移知识的模型压缩方法，且无需依赖标签。
通过利用深层自监督教师模型的知识，提升小型高效模型在下游任务（如 ImageNet 分类）中的性能。
通过压缩泛化能力强的自监督模型，实现隐私保护的设备端推理，避免数据上传。

提出的方法

学生模型通过模仿教师模型嵌入空间中数据点的相对相似性排名进行训练，使用基于最近邻距离的软概率分布作为监督信号。
对于每个查询图像，教师模型计算其与记忆库中所有锚点的距离，通过温度缩放的 Softmax 将距离转换为概率分布，该分布作为蒸馏的目标。
'Ours-2q' 变体采用基于动量的记忆库更新机制，提升了训练稳定性和性能。
学生模型通过其自身相似性分布与教师软目标分布之间的交叉熵损失进行训练。
该方法避免了直接的对比学习或硬正负样本对的监督，转而专注于保持相似与不相似样本之间的相对排序。
评估采用线性评估、最近邻分类和聚类对齐，且评估协议中未进行超参数调优。

实验结果

研究问题

RQ1能否通过从大型自监督教师模型蒸馏知识，提升小型学生模型在下游任务（如 ImageNet 分类）中的性能？
RQ2压缩自监督教师模型是否能带来比在相同数据上使用监督损失训练小型模型更好的泛化能力？
RQ3在 ImageNet 分类任务本身上评估时，自监督学生模型能否超越同架构的全监督模型？
RQ4温度和记忆库大小等超参数如何影响压缩后学生模型的性能？
RQ5动量更新机制在该压缩设置中是否对稳定的知识迁移至关重要？

主要发现

CompRess 方法在使用 AlexNet 学生模型时，ImageNet 线性评估准确率达到 59.0%，超过全监督 AlexNet 的 56.5%。
在最近邻评估中，压缩后的 AlexNet 达到 50.7% 的准确率，显著优于监督基线的 41.4%。
当从 SimCLR ResNet-50x4 教师模型压缩时，该方法在线性评估中达到 59.3% 的准确率，在最近邻评估中达到 50.7%，展现出最先进性能。
消融实验表明，较小的温度（如 0.1）和较大的记忆库大小能通过聚焦于局部邻域结构提升性能。
缓存教师模型特征可将训练时间减少近 3 倍，仅导致最近邻准确率下降 0.4%，使该方法在大规模训练中更具实用性。
即使移除记忆库更新中的动量机制，性能下降也极小，表明动量并非此设置下的必要条件。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。