[论文解读] Multi-Task Zipping via Layer-wise Neuron Sharing
本文提出多任务压缩(Multi-Task Zipping, MTZ),一种通过在模型间逐层共享神经元来压缩多个预训练深度神经网络的框架,通过轻量级微调最小化精度损失。MTZ 在两个 VGG-16 网络之间实现了高达 39.61% 的参数共享,测试误差增加不足 0.5%,且与从零开始训练相比,微调迭代次数减少至少 17.9 倍。
Future mobile devices are anticipated to perceive, understand and react to the world on their own by running multiple correlated deep neural networks on-device. Yet the complexity of these neural networks needs to be trimmed down both within-model and cross-model to fit in mobile storage and memory. Previous studies focus on squeezing the redundancy within a single neural network. In this work, we aim to reduce the redundancy across multiple models. We propose Multi-Task Zipping (MTZ), a framework to automatically merge correlated, pre-trained deep neural networks for cross-model compression. Central in MTZ is a layer-wise neuron sharing and incoming weight updating scheme that induces a minimal change in the error function. MTZ inherits information from each model and demands light retraining to re-boost the accuracy of individual tasks. Evaluations show that MTZ is able to fully merge the hidden layers of two VGG-16 networks with a 3.18% increase in the test error averaged on ImageNet and CelebA, or share 39.61% parameters between the two networks with <0.5% increase in the test errors for both tasks. The number of iterations to retrain the combined network is at least 17.8 times lower than that of training a single VGG-16 network. Moreover, experiments show that MTZ is also able to effectively merge multiple residual networks.
研究动机与目标
- 为解决在存储和内存受限的移动设备上部署多个大型预训练深度神经网络所面临的挑战。
- 在不造成显著精度下降的前提下,减少多个相关深度神经网络之间的跨模型冗余。
- 开发一种高效的压缩方法,继承预训练权重,仅需轻量级微调即可恢复任务精度。
- 实现在不同架构(如 VGG-16 和 ResNet)之间,甚至在模型预训练任务不同时,实现有效的参数共享。
提出的方法
- MTZ 在预训练模型之间执行逐层神经元共享,基于最小化误差增加的原则选择最优神经元对进行共享。
- 通过可微优化方案更新共享神经元的输入权重,以保持任务特定的性能表现,该方案最小化误差函数中的误差。
- 该框架按层进行操作,支持选择性地合并隐藏层,同时保留任务特定的分类头。
- MTZ 使用轻量级微调阶段在合并后恢复精度,与端到端训练相比显著减少了训练迭代次数。
- 该方法支持对所有隐藏层进行完整合并,也支持控制压缩比率的自适应合并。
- 与现有的单模型压缩技术(如剪枝和量化)兼容,可进一步减小模型尺寸。
实验结果
研究问题
- RQ1能否有效合并多个预训练深度神经网络,在保持任务精度的同时减小模型尺寸?
- RQ2如何优化模型间的神经元共享,以最小化每个独立任务的误差增加?
- RQ3通过逐层共享合并多个模型时,压缩率与精度损失之间的权衡关系如何?
- RQ4与从零开始训练联合模型相比,MTZ 是否能实现显著的训练效率提升?
- RQ5MTZ 在更深的架构(如 ResNets)和多任务场景下是否具备良好的可扩展性?
主要发现
- MTZ 完全合并了两个 VGG-16 网络(分别用于 ImageNet 和 CelebA)的所有隐藏层,两个任务的平均测试误差增加为 3.18%。
- 当在两个 VGG-16 模型之间共享 39.61% 的参数时,MTZ 在 ImageNet 和 CelebA 任务上的测试误差增加均不足 0.5%。
- 合并后模型的微调过程所需迭代次数比从零开始训练单个 VGG-16 网络减少至少 17.9 倍。
- MTZ 在五个在不同视觉识别任务上训练的 ResNet-28 模型之间成功共享了 90% 的参数,平均精度仅下降 0.25%。
- MTZ 构建的联合模型优于具有相同架构和参数量的完全共享多任务 VGG-16 模型,表明其具备更优的知识迁移能力。
- 初步结果表明,MTZ 适用于稀疏网络,暗示其具备与权重剪枝技术集成的潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。