Skip to main content
QUICK REVIEW

[论文解读] Large-Scale Generative Data-Free Distillation

Liangchen Luo, Mark Sandler|arXiv (Cornell University)|Dec 10, 2020
Advanced Neural Network Applications参考文献 54被引用 28
一句话总结

该论文提出了一种大规模生成式无数据蒸馏方法,仅使用预训练教师网络的批归一化统计量和logits来训练生成器,从而在无需真实训练数据的情况下实现高质量的合成数据生成。该方法在CIFAR-10上达到95.02%的最先进准确率,在CIFAR-100上达到77.02%,并首次在无数据生成设置下成功扩展至ImageNet。

ABSTRACT

Knowledge distillation is one of the most popular and effective techniques for knowledge transfer, model compression and semi-supervised learning. Most existing distillation approaches require the access to original or augmented training samples. But this can be problematic in practice due to privacy, proprietary and availability concerns. Recent work has put forward some methods to tackle this problem, but they are either highly time-consuming or unable to scale to large datasets. To this end, we propose a new method to train a generative image model by leveraging the intrinsic normalization layers' statistics of the trained teacher network. This enables us to build an ensemble of generators without training data that can efficiently produce substitute inputs for subsequent distillation. The proposed method pushes forward the data-free distillation performance on CIFAR-10 and CIFAR-100 to 95.02% and 77.02% respectively. Furthermore, we are able to scale it to ImageNet dataset, which to the best of our knowledge, has never been done using generative models in a data-free setting.

研究动机与目标

  • 为解决由于隐私、安全或存储限制而无法访问原始训练数据时的知识蒸馏挑战。
  • 开发一种可扩展、高效的无数据设置下生成高保真合成数据的方法。
  • 将无数据蒸馏扩展至ImageNet等大规模数据集,而此前生成式方法尚未探索此方向。
  • 通过同时利用矩匹配和inceptionism优化目标来提升生成器训练中的蒸馏性能。

提出的方法

  • 仅使用预训练教师网络的批归一化(BN)层统计量(均值μ和方差σ²)来训练生成器。
  • 通过矩匹配损失优化生成器,使其生成图像的BN统计量与真实训练数据的统计量对齐。
  • 应用inceptionism损失,以最大化教师网络对生成图像预测目标类别的概率。
  • 使用基于每类或分组统计量训练的生成器集合,以提升蒸馏中的多样性与性能。
  • 在各向同性高斯假设下,利用教师网络的内在归一化统计量,避免对真实数据的依赖。
  • 将两种损失结合于单一优化目标中,以生成逼真且类别特定的合成图像用于蒸馏。

实验结果

研究问题

  • RQ1能否仅利用预训练教师网络的内部统计量,而无需真实训练数据,有效训练生成模型?
  • RQ2在无数据设置下,利用生成模型进行无数据蒸馏在大规模数据集(如ImageNet)上的可扩展性如何?
  • RQ3与单个生成器相比,使用生成器集合对蒸馏性能有何影响?
  • RQ4不同学生网络架构在与教师特定生成器配合时,其蒸馏准确率表现如何?
  • RQ5所提出方法能否在无数据设置下于CIFAR-10和CIFAR-100等标准基准上实现最先进性能?

主要发现

  • 所提方法在无数据蒸馏设置下于CIFAR-10上达到95.02%的新SOTA准确率,在CIFAR-100上达到77.02%,优于此前所有方法。
  • 在ImageNet(32×32)上使用1,000个生成器的集合,蒸馏准确率达到51.82%,仅比监督基线低3.17%。
  • 当从ResNet-50教师模型蒸馏ResNet-50学生模型时,与教师模型的性能差距缩小至5.70%,表明知识迁移能力极强。
  • 单个生成器训练在ImageNet(32×32)上仅取得15.85%的准确率,凸显了使用集合对可扩展性至关重要。
  • 该方法成功将无数据蒸馏扩展至ImageNet,据作者所知,此前在无数据生成设置下尚未有生成模型实现此目标。
  • 在某一教师模型上训练的生成器对其他教师-学生配置的泛化能力有限,提示需要设计通用生成器。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。