[论文解读] DAFL: Data-Free Learning of Student Networks
该论文提出DAFL,一种无需访问原始训练数据即可训练紧凑学生网络的数据自由蒸馏框架,通过基于GAN的生成器合成最大化预训练教师网络激活的数据。该方法在CIFAR-10上达到92.22%的准确率,在CIFAR-100上达到74.47%,仅使用教师网络的接口,展示了在数据自由设置下的有效知识迁移。
Learning portable neural networks is very essential for computer vision for the purpose that pre-trained heavy deep models can be well applied on edge devices such as mobile phones and micro sensors. Most existing deep neural network compression and speed-up methods are very effective for training compact deep models, when we can directly access the training dataset. However, training data for the given deep network are often unavailable due to some practice problems (e.g. privacy, legal issue, and transmission), and the architecture of the given network are also unknown except some interfaces. To this end, we propose a novel framework for training efficient deep neural networks by exploiting generative adversarial networks (GANs). To be specific, the pre-trained teacher networks are regarded as a fixed discriminator and the generator is utilized for derivating training samples which can obtain the maximum response on the discriminator. Then, an efficient network with smaller model size and computational complexity is trained using the generated data and the teacher network, simultaneously. Efficient student networks learned using the proposed Data-Free Learning (DAFL) method achieve 92.22% and 74.47% accuracies using ResNet-18 without any training data on the CIFAR-10 and CIFAR-100 datasets, respectively. Meanwhile, our student network obtains an 80.56% accuracy on the CelebA benchmark.
研究动机与目标
- 为解决在隐私、法律或传输限制导致原始训练数据不可用时,训练紧凑深度神经网络的挑战。
- 在不访问训练数据或教师网络架构的情况下,实现从预训练教师网络的知识蒸馏。
- 开发一种通过GAN生成合成数据的方法,以有效训练更小、更高效的教师网络。
- 仅使用教师网络的推理接口和无真实训练数据,在标准基准上实现高准确率。
提出的方法
- 采用生成对抗网络(GAN),其中预训练的教师网络作为固定的判别器。
- 生成器生成能最大化教师网络最后一层响应的合成数据样本。
- 学生网络在生成数据上同时进行训练,并从教师网络中蒸馏知识。
- 生成器被优化以生成能欺骗教师网络输出高置信度预测的数据。
- 该方法仅依赖教师网络的前向传播接口,不依赖其架构或权重。
- 学生网络通过合成数据和蒸馏损失端到端进行训练。
实验结果
研究问题
- RQ1学生网络是否可在无原始训练数据访问的情况下被有效训练?
- RQ2在无训练数据的情况下,基于GAN的数据生成策略在将知识从教师网络迁移到学生网络方面表现如何?
- RQ3仅使用教师网络的推理接口和合成数据,可在标准基准上实现何种性能水平?
- RQ4所提出的无数据蒸馏方法与现有依赖数据的知识蒸馏方法相比如何?
主要发现
- DAFL方法在使用学生网络且无真实训练数据的情况下,于CIFAR-10上实现了92.22%的top-1准确率。
- 在CIFAR-100上,该方法达到了74.47%的准确率,表明在更复杂的分类任务中具有强大的泛化能力。
- 在CelebA基准上,该方法实现了80.56%的准确率,表明其在多样化视觉任务中的可迁移性。
- 该方法在无需访问原始数据集或模型架构的情况下,实现了有效的模型压缩与加速。
- 结果表明,当将教师网络用作判别器时,GAN生成的数据可有效模拟真实数据用于蒸馏。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。