QUICK REVIEW

[论文解读] Self-supervised Knowledge Distillation for Few-shot Learning

Jathushan Rajasegaran, Salman Khan|arXiv (Cornell University)|Jun 17, 2020

Domain Adaptation and Few-Shot Learning参考文献 49被引用 70

一句话总结

两阶段自监督框架（Gen-0 与 Gen-1）通过先学习一个具等变性的输出流形并使用自监督，然后蒸馏到学生模型以保持流形同时增强辨别力。

ABSTRACT

Real-world contains an overwhelmingly large number of object classes, learning all of which at once is infeasible. Few shot learning is a promising learning paradigm due to its ability to learn out of order distributions quickly with only a few samples. Recent works [7, 41] show that simply learning a good feature embedding can outperform more sophisticated meta-learning and metric learning algorithms for few-shot learning. In this paper, we propose a simple approach to improve the representation capacity of deep neural networks for few-shot learning tasks. We follow a two-stage learning process: First, we train a neural network to maximize the entropy of the feature embedding, thus creating an optimal output manifold using a self-supervised auxiliary loss. In the second stage, we minimize the entropy on feature embedding by bringing self-supervised twins together, while constraining the manifold with student-teacher distillation. Our experiments show that, even in the first stage, self-supervision can outperform current state-of-the-art methods, with further gains achieved by our second stage distillation process. Our codes are available at: https://github.com/brjathu/SKD.

研究动机与目标

通过专注于输出空间的多样性而非不变表示来提升小样本学习的动机。
提出一个两阶段的自监督知识蒸馏框架（Gen-0 和 Gen-1）以学习更丰富的输出流形。
证明仅自监督就能超过此前的状态最优，同时蒸馏带来进一步提升。
在标准FSL基准数据集（miniImageNet、tieredImageNet、CIFAR-FS、FC100）上展示强劲的经验提升。

提出的方法

Gen-0 通过对输入的旋转版本进行训练并使用自监督头同时预测类别标签与旋转角度来学习等变的输出流形。
Gen-0 的损失将标准的交叉熵与自监督的旋转预测损失结合，以鼓励多样的 logits。
Gen-1 固定教师（Gen-0）并训练学生以在原始输入上匹配教师的输出，同时通过蒸馏损失使旋转对在输出空间上更接近，并对 logits 引入辅助的 L2 损失以增强同类内判别性。
知识蒸馏通过教师和学生输出之间的 KL 散度（带温度 T）来对齐分布。
原始输入与旋转输入的学生 logits 之间的 L2 损失进一步提升同类内的辨别能力。
通过在分类层后附加一个额外的旋转头来实现基于旋转的自监督，使其能够联合编码类别和变换信息。
训练分两阶段进行，Gen-0 着重于流形估计，Gen-1 着重于保持流形的蒸馏与辨别。

实验结果

研究问题

RQ1自监督学习是否能够诱导更丰富、等变的输出流形，从而在有限标签下提升 FSL 表现？
RQ2两阶段的 Gen-0/Gen-1 框架是否比单阶段 SSL 或标准 FSL 方法有改进？
RQ3基于旋转的自监督与蒸馏如何影响 FSL 嵌入的类内多样性和类间辨别力？
RQ4SKD 在常见 FSL 基准（miniImageNet、tieredImageNet、CIFAR-FS、FC100）上的经验增益如何？

主要发现

Gen-0 单独在若干设定中超越了此前的状态最优，展示了输出空间自监督多样性的价值。
Gen-1 通过知识蒸馏和嵌入距离约束进一步提升了性能，相对于 Gen-0 提供额外的增益。
在 miniImageNet 上，Gen-0 在 5 类 1-shot/5-shot 任务中分别达到 65.93% 与 83.15%；Gen-1 分别达到 67.04% 与 83.54%。
在 CIFAR-FS 上，Gen-0 分别达到 1-shot 74.5% 和 5-shot 88.0%；Gen-1 分别达到 1-shot 76.9% 和 5-shot 88.9%。
在各数据集上，SKD 变体普遍优于 RFS-simple 及相关基线，SKD-GEN1 常常提供最佳结果。
该方法在四个基准（miniImageNet、tieredImageNet、CIFAR-FS、FC100）上实现了与论文所述的竞争性或最先进的准确度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。