[论文解读] Learning multiple visual domains with residual adapters
提出残差适配器模块,使单个网络在十个不同的视觉领域上都能表现良好,并引入 Visual Decathlon 基准测试来评估多领域表示。
There is a growing interest in learning data representations that work well for many different types of problems and data. In this paper, we look in particular at the task of learning a single visual representation that can be successfully utilized in the analysis of very different types of images, from dog breeds to stop signs and digits. Inspired by recent work on learning networks that predict the parameters of another, we develop a tunable deep network architecture that, by means of adapter residual modules, can be steered on the fly to diverse visual domains. Our method achieves a high degree of parameter sharing while maintaining or even improving the accuracy of domain-specific representations. We also introduce the Visual Decathlon Challenge, a benchmark that evaluates the ability of representations to capture simultaneously ten very different visual domains and measures their ability to recognize well uniformly.
研究动机与目标
- 开发可在多个视觉领域共享参数的神经网络架构,同时实现领域特定的适应。
- 引入残差适配器模块,增加少量领域特异参数。
- 在添加新领域时实现学习过程中的不遗忘。
- 通过 Visual Decathlon 基准在十个多样化的视觉数据集上评估该方法。
提出的方法
- 引入残差适配器模块,作为对残差块添加的小型 1x1 滤波器组,使领域特定适应在最小化参数增加的情况下实现。
- 将参数分为与领域无关(共享)和领域特异(适配)两部分。
- 使用低秩或基于 1x1 滤波器的参数化来保持领域特异参数的规模较小(每领域约 ~2(C^2+5C))。
- 将批量归一化的放缩和偏置参数作为额外的领域相关组件。
- 通过在 ImageNet 上预训练然后对每个领域训练适配器来启动多领域学习,从而实现不遗忘的学习。
- 可选地通过在训练期间轮换来自所有领域的数据来实现端到端学习,以细化共享参数。
实验结果
研究问题
- RQ1一个紧凑的领域特异适配参数集是否能够在非常不同的视觉领域之间实现有效的多领域学习?
- RQ2所提的残差适配器方法与在单模型多领域上常见的微调、特征冻结和其他基线相比的表现如何?
- RQ3该方法在适应多目标领域的同时是否能够保持对大型源域(如 ImageNet)的表现?
- RQ4适配器大小、正则化和领域预测准确性对整体多领域性能有何影响?
- RQ5Visual Decathlon 基准如何揭示多领域表示的优势与弱点?
主要发现
| 模型 | #参数 | ImNet | Airc. | C100 | DPed | DTD | GTSR | Flwr | OGlt | SVHN | UCF | mean | S | # 图像 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Scratch | 10× | 59.87 | 57.10 | 75.73 | 91.20 | 37.77 | 96.55 | 56.30 | 88.74 | 96.63 | 43.27 | 70.32 | 1625 | Scratch |
| Scratch+ | 11× | 59.67 | 59.59 | 76.08 | 92.45 | 39.63 | 96.90 | 56.66 | 88.74 | 96.78 | 44.17 | 71.07 | 1826 | Scratch+ |
| Feature extractor | 1× | 59.67 | 23.31 | 63.11 | 80.33 | 45.37 | 68.16 | 73.69 | 58.79 | 43.54 | 26.80 | 54.28 | 544 | Feature extractor |
| Finetune | 10× | 59.87 | 60.34 | 82.12 | 92.82 | 55.53 | 97.53 | 81.41 | 87.69 | 96.55 | 51.20 | 76.51 | 2500 | Finetune |
| LwF [21] | 10× | 59.87 | 61.15 | 82.23 | 92.34 | 58.83 | 97.57 | 83.05 | 88.08 | 96.10 | 50.04 | 76.93 | 2515 | LwF [21] |
| BN adapt. [5] | ∼1× | 59.87 | 43.05 | 78.62 | 92.07 | 51.60 | 95.82 | 74.14 | 84.83 | 94.10 | 43.51 | 71.76 | 1363 | BN adapt. [5] |
| Res. adapt. | 2× | 59.67 | 56.68 | 81.20 | 93.88 | 50.85 | 97.05 | 66.24 | 89.62 | 96.13 | 47.45 | 73.88 | 2118 | Res. adapt. |
| Res. adapt. decay | 2× | 59.67 | 61.87 | 81.20 | 93.88 | 57.13 | 97.57 | 81.67 | 89.62 | 96.13 | 50.12 | 76.89 | 2621 | Res. adapt. decay |
| Res. adapt. finetune all | 2× | 59.23 | 63.73 | 81.31 | 93.30 | 57.02 | 97.47 | 83.43 | 89.82 | 96.17 | 50.28 | 77.17 | 2643 | Res. adapt. finetune all |
| Res. adapt. dom-pred | 2.5× | 59.18 | 63.52 | 81.12 | 93.29 | 54.93 | 97.20 | 82.29 | 89.82 | 95.99 | 50.10 | 76.74 | 2503 | Res. adapt. dom-pred |
| Res. adapt. (large) | ∼12× | 67.00 | 67.69 | 84.69 | 94.28 | 59.41 | 97.43 | 84.86 | 89.92 | 96.59 | 52.39 | 79.43 | 3131 | Res. adapt. (large) |
- 残差适配器在十个领域实现了高参数共享,同时具有强烈的领域特异性表现。
- 该方法在平均准确率和十域十风格分数(decathlon scores)方面与对比基线(微调所有参数或训练单独模型)相比具有竞争力。
- 基于适配器的方法在对原始域不遗忘的情况下,对目标域表现良好。
- 仅调优适配器参数在若干领域上的表现优于完全微调和其他基线。
- 端到端学习和领域预测提供额外的好处,在对原始域的性能损失最小的前提下取得强劲结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。