[论文解读] DELTA: DEep Learning Transfer using Feature Map with Attention for Convolutional Networks
DELTA 通过在外层特征图上对齐目标网络与源网络,并使用一个有监督的注意机制来正则化转移学习,从而提升微调在 L2 和 L2-SP 基线上的表现。
Transfer learning through fine-tuning a pre-trained neural network with an extremely large dataset, such as ImageNet, can significantly accelerate training while the accuracy is frequently bottlenecked by the limited dataset size of the new target task. To solve the problem, some regularization methods, constraining the outer layer weights of the target network using the starting point as references (SPAR), have been studied. In this paper, we propose a novel regularized transfer learning framework DELTA, namely DEep Learning Transfer using Feature Map with Attention. Instead of constraining the weights of neural network, DELTA aims to preserve the outer layer outputs of the target network. Specifically, in addition to minimizing the empirical loss, DELTA intends to align the outer layer outputs of two networks, through constraining a subset of feature maps that are precisely selected by attention that has been learned in an supervised learning manner. We evaluate DELTA with the state-of-the-art algorithms, including L2 and L2-SP. The experiment results show that our proposed method outperforms these baselines with higher accuracy for new tasks.
研究动机与目标
- 在转移学习中动机于超越权重距离的正则化,以提高在小目标数据集上的泛化能力。
- 提出一种基于行为的正则化器,使源网络和目标网络之间的外层特征图对齐。
- 引入一个有监督的注意机制,通过其判别能力对特征图进行加权。
- 结合一个受 SPAR 启发的近端项,以加速优化并稳定微调。
提出的方法
- 定义一个正则化项,衡量在每个训练样本上源网络与目标网络外层特征图之间的距离。
- 通过卷积滤波器和 ReLU 计算特征图 FM_j,然后将其向量化为 FM_j(z, w, x)。
- 用一个来自有监督注意的权重 W_j 对每个特征图的贡献进行加权,基于移除第 j 个滤波器时的性能损失(对损失差异做 softmax)。
- 将总损失公式化为经验损失加上一个带权的行为正则项 Omega(ω, ω*, x, y, z) 加上一个私有参数近端项(SPAR)。
- 使用 L2-FE 基线来估计注意的重要性并计算注意力权重;在带 SPAR 的训练下进行训练以加速优化。
- 提取并正则化特征图而非原始权重,以促进判别行为的转移。
实验结果
研究问题
- RQ1在源网络和目标网络之间对齐外层特征图(行为)是否能带来比权重距离正则化更好的转移性能?
- RQ2在微调卷积神经网络以适应小目标数据集时,加入一个有监督的注意机制对特征图重新加权,是否能改善转移学习?
- RQ3在多样的视觉任务和基础架构上,DELTA 与 L2 和 L2-SP 正则化相比表现如何?
- RQ4注意力对激活映射和在微调过程中的未激活通道复用的概念有何影响?
主要发现
| Dataset | Model | L2 | L2-SP | DELTA (w/o ATT) | DELTA |
|---|---|---|---|---|---|
| MIT Indoors 67 | ResNet-101 | 83.7 | 85.1 | 85.3 | 85.5 |
| Stanford Dogs 120 | ResNet-101 | 83.3 | 88.3 | 88.3 | 88.7 |
| Caltech 256-30 | ResNet-101 | 84.7 | 85.4 | 85.7 | 86.6 |
| Caltech 256-60 | ResNet-101 | 87.2 | 87.2 | 87.6 | 88.7 |
| CUB-200-2011 | ResNet-101 | 78.4 | 79.5 | 78.9 | 80.5 |
| Food-101 | ResNet-101 | 85.3 | 86.4 | 85.9 | 86.3 |
| MIT Indoors 67 | Inception-V3 | 74.8 | 74.6 | 76.9 | 78.1 |
| Stanford Dogs 120 | Inception-V3 | 88.6 | 89.4 | 88.7 | 88.7 |
| Caltech 256-30 | Inception-V3 | 83.6 | 83.3 | 83.4 | 84.9 |
| Caltech 256-60 | Inception-V3 | 85.8 | 85.3 | 85.1 | 86.8 |
| CUB-200-2011 | Inception-V3 | 74.3 | 75.2 | 74.5 | 76.5 |
| Food-101 | Inception-V3 | 76.9 | 75.9 | 76.2 | 80.8 |
- DELTA 在多个数据集(MIT Indoors 67、Stanford Dogs 120、Caltech 256-30/60、CUB-200-2011、Food-101)的 top-1 准确率上优于 L2 与 L2-SP 基线。
- 引入注意力的 DELTA 在所有报道的数据集上的准确率均高于不带注意力的 DELTA。
- 在数据增强下,DELTA 继续提高准确率,在对比方法中仍然是最佳。
- 一个案例研究显示 DELTA 在关键图像区域上产生更具辨别性的激活聚焦(注意力),支持未激活通道复用的假设。
- 在测试的调度器下,DELTA 展现出比 L2-SP 更快的收敛和更平滑的学习曲线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。