QUICK REVIEW

[论文解读] Do Deep Nets Really Need to be Deep?

Jimmy Ba, Rich Caruana|arXiv (Cornell University)|Dec 21, 2013

Generative Adversarial Networks and Image Synthesis参考文献 21被引用 1,480

一句话总结

该论文表明，通过知识蒸馏方法让浅层前馈神经网络模仿深层模型，可在TIMIT音素识别和CIFAR-10图像分类任务上实现与深层卷积神经网络相当的性能。使用预训练深层网络的logits作为目标，浅层学生网络在参数量更少或相当的情况下，达到或超过原始深层模型的准确率，表明深度并非实现高性能的必要条件。

ABSTRACT

Currently, deep neural networks are the state of the art on problems such as speech recognition and computer vision. In this extended abstract, we show that shallow feed-forward networks can learn the complex functions previously learned by deep nets and achieve accuracies previously only achievable with deep models. Moreover, in some cases the shallow neural nets can learn these deep functions using a total number of parameters similar to the original deep model. We evaluate our method on the TIMIT phoneme recognition task and are able to train shallow fully-connected nets that perform similarly to complex, well-engineered, deep convolutional architectures. Our success in training shallow neural nets to mimic deeper models suggests that there probably exist better algorithms for training shallow feed-forward nets than those currently available.

研究动机与目标

探究深度神经网络在视觉与语音任务上实现最先进性能是否真正需要深度结构。
确定浅层网络是否能够学习此前被认为仅由深层架构实现的复杂函数。
评估通过蒸馏实现的模型压缩是否能使浅层网络在参数量相当的情况下匹配或超越深层网络的准确率。
评估深层网络的性能优势源于架构深度，还是源于更优的训练方法与归纳偏置。

提出的方法

在原始标注数据上使用交叉熵损失的标准训练方式，训练一个深层神经网络（教师）。
利用训练好的深层网络在无标签数据上生成logits（softmax前的值），以创建合成训练目标。
训练一个浅层全连接前馈网络（学生）通过L2损失回归深层网络的logits。
通过使用软标签（logits）而非硬标签进行蒸馏训练，实现更好的泛化与更精细的特征学习。
在测试集上将学生模型的性能与原始深层模型及其他浅层基线模型进行比较。
使用集成模型作为教师以提升学生模型的准确率，证明该蒸馏方法具有良好的可扩展性。

实验结果

研究问题

RQ1浅层前馈网络是否能在语音与图像识别任务上实现与深层卷积神经网络相当的性能？
RQ2深层网络的性能优势是否源于架构深度，还是源于更优的归纳偏置与训练流程？
RQ3从深层教师模型蒸馏知识是否能使浅层学生网络在参数量更少或相当的情况下，匹配或超越教师模型的准确率？
RQ4浅层网络是否存在根本性的表征能力限制，还是瓶颈主要存在于优化与正则化方面？
RQ5无标签数据的可用性或更高准确率的教师模型在多大程度上能提升浅层学生模型的性能？

主要发现

通过模仿深层模型训练的浅层前馈网络在TIMIT与CIFAR-10上的测试准确率与最先进深层卷积神经网络相当。
在TIMIT上，一个仅含160K参数的浅层网络（SNN-MIMIC-160K）达到了参数量为10倍的深层模型的性能，表明深度并非实现高准确率的必要条件。
通过集成模型提升教师准确率后，学生模型的性能随之成比例提升，表明学生模型的容量并非性能瓶颈。
尽管参数量多于深层模型，浅层模仿网络的训练速度比深层模型快6–12倍，训练时间仅需1–2小时，而深层模型需8–12小时（GPU上）。
直接训练的浅层网络与蒸馏训练的浅层网络之间性能差距显著，表明当前学习算法在原始数据上直接训练浅层网络存在困难。
当通过蒸馏训练时，与深层模型参数量相同的浅层模型可达到相似的准确率，表明深层网络所学习的函数本身并不要求深度结构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。