[论文解读] Positive-Unlabeled Compression on the Cloud
本文提出了一种新颖的基于云的深度学习模型压缩正样本-未标记样本(PU)压缩框架,通过注意力机制的特征提取和鲁棒知识蒸馏(RKD)方案,仅使用ImageNet数据的8%即可实现高效蒸馏,有效纠正标签噪声和类别不平衡问题。该方法在极小量标注数据下实现最先进性能,显著降低传输成本的同时保持高精度。
Many attempts have been done to extend the great success of convolutional neural networks (CNNs) achieved on high-end GPU servers to portable devices such as smart phones. Providing compression and acceleration service of deep learning models on the cloud is therefore of significance and is attractive for end users. However, existing network compression and acceleration approaches usually fine-tuning the svelte model by requesting the entire original training data (\eg ImageNet), which could be more cumbersome than the network itself and cannot be easily uploaded to the cloud. In this paper, we present a novel positive-unlabeled (PU) setting for addressing this problem. In practice, only a small portion of the original training set is required as positive examples and more useful training examples can be obtained from the massive unlabeled data on the cloud through a PU classifier with an attention based multi-scale feature extractor. We further introduce a robust knowledge distillation (RKD) scheme to deal with the class imbalance problem of these newly augmented training examples. The superiority of the proposed method is verified through experiments conducted on the benchmark models and datasets. We can use only $8\%$ of uniformly selected data from the ImageNet to obtain an efficient model with comparable performance to the baseline ResNet-34.
研究动机与目标
- 解决将大规模训练数据集(如ImageNet)上传至云端进行模型压缩时产生的高昂传输成本问题。
- 在无需完整访问原始训练数据的前提下,实现在云端高效且可扩展的深度学习模型压缩。
- 缓解由从未标记数据衍生的数据增强训练集中存在的噪声标签和类别不平衡导致的性能下降问题。
- 开发一种实用且用户友好的云端服务,实现仅使用极少标注数据和海量未标记数据来压缩深度神经网络。
- 在仅使用原始训练数据一小部分的情况下,实现与完整数据微调相当的最先进压缩性能。
提出的方法
- 提出一种两阶段流程:首先,利用少量标注数据和云端海量未标记数据训练一个正样本-未标记样本(PU)分类器,以识别相关未标记样本作为‘正样本’数据。
- PU分类器采用基于注意力机制的多尺度特征提取器,以提升表示学习能力和相关未标记样本的选择准确性。
- 将筛选出的未标记数据与原始标注数据结合,构成增强的训练集用于知识蒸馏。
- 引入一种鲁棒知识蒸馏(RKD)方案,以应对增强数据集中存在的类别不平衡和标签噪声问题,提升泛化能力和精度。
- 使用原始预训练模型作为教师网络,较小的学生网络作为学生模型,通过最小化教师与学生输出之间的交叉熵损失完成知识蒸馏。
- 在ImageNet、CIFAR-10和MNIST数据集上进行评估,采用ResNet-34和LeNet-5等标准模型,性能通过top-1和top-5准确率衡量。
实验结果
研究问题
- RQ1PU分类器能否有效从云端海量数据集中识别出对模型压缩有用的未标记数据,以增强小规模标注数据集?
- RQ2如何缓解增强训练集中存在的类别不平衡与标签噪声问题,以保持模型精度?
- RQ3当仅使用原始训练数据的一小部分时,模型压缩性能能在多大程度上得以保持?
- RQ4所提方法是否能在不依赖完整原始数据集的情况下实现最先进水平的模型压缩性能?
- RQ5基于注意力机制的多尺度特征提取器在PU设置下如何提升所选正样本的质量?
主要发现
- 仅使用均匀选取的8% ImageNet数据,该方法实现了95.1%的top-5准确率,仅比完整数据基线下降0.5%。
- 即使在极低标注数据量下,该方法仍保持优异性能:在仅使用原始数据0.8%的情况下,仍达到94.6%的有竞争力top-5准确率。
- 在MNIST数据集上,该方法优于最先进的方法如FitNet和FSKD,尤其在每类标注样本极少(如<5个)时表现更优,使用每类20个样本即可达到98.9%的准确率。
- 鲁棒知识蒸馏(RKD)方案有效降低了增强数据集中噪声标签和类别不平衡的影响,提升了泛化能力。
- 基于注意力机制的多尺度特征提取器增强了PU分类器识别相关未标记数据的能力,从而提升了数据选择质量与整体性能。
- 该方法展现出强大的可扩展性与效率,显著降低数据传输成本,同时在基准数据集上保持了具有竞争力的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。