QUICK REVIEW

[论文解读] Net2Net: Accelerating Learning via Knowledge Transfer

Tianqi Chen, Ian Goodfellow|arXiv (Cornell University)|Nov 18, 2015

Adversarial Robustness in Machine Learning参考文献 13被引用 164

一句话总结

Net2Net 通过函数保持的权重初始化，将小型预训练神经网络的知识迁移至更大、更宽或更深的网络，从而加速深度学习模型的训练。该方法实现了更快的收敛速度，并在不从零开始重新训练的情况下，实现了 ImageNet 上 78.5% 的新 SOTA（最先进）top-1 准确率。

ABSTRACT

We introduce techniques for rapidly transferring the information stored in one neural net into another neural net. The main purpose is to accelerate the training of a significantly larger neural net. During real-world workflows, one often trains very many different neural networks during the experimentation and design process. This is a wasteful process in which each new model is trained from scratch. Our Net2Net technique accelerates the experimentation process by instantaneously transferring the knowledge from a previous network to each new deeper or wider network. Our techniques are based on the concept of function-preserving transformations between neural network specifications. This differs from previous approaches to pre-training that altered the function represented by a neural net when adding layers to it. Using our knowledge transfer mechanism to add depth to Inception modules, we demonstrate a new state of the art accuracy rating on the ImageNet dataset.

研究动机与目标

通过复用先前训练好的模型的知识，加速深度神经网络的迭代设计。
在现实世界工作流中，当多个模型架构被依次探索时，减少训练时间。
在无需从随机初始化开始训练的情况下，实现对更宽或更深模型架构的高效探索。
通过允许模型容量随训练数据增长而无缝扩展，支持终身学习系统。
证明在扩展网络宽度或深度时，知识迁移可实现性能无损失。

提出的方法

Net2WiderNet 通过将教师网络中的每个神经元拆分为多个具有缩放权重的神经元，来初始化更宽的网络，以保持相同的函数。
Net2DeeperNet 通过在每个 Inception 模块中插入保持身份的残差块（垂直-水平卷积对），来初始化更深的网络。
该初始化确保学生网络在任何微调之前，计算出与教师网络相同的输出。
在架构变化过程中，通过应用保持函数的变换，以维持相同的输入-输出映射。
然后使用标准优化方法对初始化后的学生网络进行训练，从而受益于预先学习到的函数。
该方法避免了像以往知识迁移方法那样需要额外的蒸馏头或辅助损失项。

实验结果

研究问题

RQ1能否在不造成性能下降的情况下，将小型预训练神经网络的知识迁移至更大、更宽或更深的网络？
RQ2与随机初始化相比，函数保持的权重初始化是否能显著减少大型模型的训练时间？
RQ3Net2Net 是否能加快深度学习工作流中模型架构空间的探索速度？
RQ4Net2Net 是否可用于以保持或提升大规模基准测试（如 ImageNet）上准确率的方式扩展模型？
RQ5Net2Net 的性能提升是源于更好的初始化，还是源于架构变换带来的额外归纳偏置？

主要发现

Net2WiderNet 达到了与随机初始化的更宽网络相同的最终准确率，证实了知识迁移过程中无性能损失。
与随机初始化相比，Net2DeeperNet 在更深的模型中实现了更快的训练和验证准确率收敛。
通过结合宽度和深度扩展的 Net2Net 方法，作者在 ImageNet 验证集上实现了新的 SOTA 78.5% top-1 准确率。
即使对于更大的架构，Net2Net 初始化模型的收敛曲线也始终快于随机初始化模型。
该方法减少了训练新模型变体所需的时间，从而在模型设计工作流中实现了快速迭代。
该方法在应用于复杂的 Inception 模块时依然有效，证明了其在真实世界深度学习系统中的可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。