[论文解读] Piggyback: Adapting a Single Network to Multiple Tasks by Learning to Mask Weights
该论文提出Piggyback方法,通过学习二值掩码来选择性地激活或禁用权重,从而在不修改原始网络的前提下,将单个预训练深度神经网络适配到多个新任务。该方法在多种图像分类任务中实现了与微调网络相当的性能,包括存在显著领域差异的任务,同时每参数每任务仅增加1比特的开销,并避免了灾难性遗忘。
This work presents a method for adapting a single, fixed deep neural network to multiple tasks without affecting performance on already learned tasks. By building upon ideas from network quantization and pruning, we learn binary masks that piggyback on an existing network, or are applied to unmodified weights of that network to provide good performance on a new task. These masks are learned in an end-to-end differentiable fashion, and incur a low overhead of 1 bit per network parameter, per task. Even though the underlying network is fixed, the ability to mask individual weights allows for the learning of a large number of filters. We show performance comparable to dedicated fine-tuned networks for a variety of classification tasks, including those with large domain shifts from the initial task (ImageNet), and a variety of network architectures. Unlike prior work, we do not suffer from catastrophic forgetting or competition between tasks, and our performance is agnostic to task ordering. Code available at https://github.com/arunmallya/piggyback.
研究动机与目标
- 解决深度网络中持续学习的挑战,即在添加新任务时导致现有模型发生灾难性遗忘。
- 克服微调和基于正则化方法的局限性,后者会降低先前任务的性能或需要大量参数更新。
- 实现在不重新训练或修改原始权重的情况下,高效适配单个预训练网络到多个下游任务。
- 在保持多样化数据集和架构(包括存在显著领域差异的场景)中高性能的同时,最小化额外参数成本。
- 为在边缘设备上部署新功能提供可扩展的解决方案,而无需下载新模型或修改现有模型。
提出的方法
- 利用具有固定、未修改权重的预训练主干网络作为所有任务的基础。
- 为每个任务引入可学习的实值掩码权重,这些权重可微分,并通过可微分的阈值函数生成二值掩码。
- 将二值掩码逐元素应用于主干网络权重,通过激活或禁用单个权重,有效生成特定于任务的滤波器。
- 使用任务特定损失函数,通过反向传播端到端训练掩码权重,同时保持主干权重冻结。
- 训练完成后,丢弃实值掩码权重,仅保留经过阈值处理的二值掩码,按任务存储。
- 通过为每个任务独立学习二值掩码,支持多任务,使同一主干网络可作为所有任务的共享特征提取器。
实验结果
研究问题
- RQ1能否在不进行微调或权重更新的情况下,有效适配一个固定预训练的深度网络到新任务?
- RQ2二值掩码学习能否在保持先前学习任务性能的同时,防止灾难性遗忘?
- RQ3该方法在存在显著领域差异的数据集(如ImageNet到WikiArt或素描图)上是否具备泛化能力?
- RQ4在准确率和参数效率方面,Piggyback方法与微调及其他持续学习基线方法相比表现如何?
- RQ5该方法能否扩展到多层架构,并适用于包含混合训练方案的语义分割等任务?
主要发现
- Piggyback在Visual Decathlon测试集上达到97.24%的top-1准确率,与SOTA方法DAN(97.24% vs. 96.77%)相当,同时仅需主干网络1.28倍的参数成本。
- 在PASCAL 2011 + SBD语义分割任务上,该方法实现61.41的平均交并比(mIOU),与完整微调的VGG-16(61.08 mIOU)非常接近,掩码仅增加17 MB开销,新增层仅7.5 MB。
- 性能与任务顺序无关,即使在添加多个任务后,先前任务的性能也不会下降,原因在于主干权重保持固定。
- 该方法在架构上具备泛化能力,包括VGG-16、ResNets和DenseNets,并在WikiArt绘画和人类素描等存在显著领域差异的数据集上表现良好。
- 该方法每参数每任务仅增加1比特存储开销,当应用于9个任务时,总参数比为1.28倍,为所有测试方法中最低。
- 即使仅在顶部添加单个全连接层,该方法仍能保持高性能,并成功扩展到包含微调层和掩码层的混合训练方案。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。