[论文解读] Depthwise Convolution is All You Need for Learning Multiple Visual Domains
本文提出一种多领域学习模型,使用深度可分离卷积,具备共享的逐点分支和领域特定的深度分支,在参数量约为现有方法的一半的情况下,达到可视十项全能(Visual Decathlon)任务的最新结果。
There is a growing interest in designing models that can deal with images from different visual domains. If there exists a universal structure in different visual domains that can be captured via a common parameterization, then we can use a single model for all domains rather than one model per domain. A model aware of the relationships between different domains can also be trained to work on new domains with less resources. However, to identify the reusable structure in a model is not easy. In this paper, we propose a multi-domain learning architecture based on depthwise separable convolution. The proposed approach is based on the assumption that images from different domains share cross-channel correlations but have domain-specific spatial correlations. The proposed model is compact and has minimal overhead when being applied to new domains. Additionally, we introduce a gating mechanism to promote soft sharing between different domains. We evaluate our approach on Visual Decathlon Challenge, a benchmark for testing the ability of multi-domain models. The experiments show that our approach can achieve the highest score while only requiring 50% of the parameters compared with the state-of-the-art approaches.
研究动机与目标
- 识别跨视觉领域的可重用结构,以实现一个模型覆盖多个领域。
- 提出基于深度可分离卷积的架构,将跨通道相关性与空间相关性分离。
- 通过共享组件和门控机制,以最小的额外参数高效学习新领域。
- 研究深度卷积和逐点卷积学习特征的可解释性。
- 在Visual Decathlon Challenge上评估性能并与强基线进行比较。
提出的方法
- 用深度可分离卷积(先进行深度3x3卷积再跟随1x1逐点卷积)替换ResNet-26骨干网络中的标准3x3卷积,以降低参数量。
- 在跨域间共享逐点卷积,以建模跨通道相关性。
- 为新域维持领域特定的深度卷积滤波器和领域特定的批归一化参数。
- 在推理时对所有域堆叠深度卷积滤波器以计算域特定输出。
- 引入深度卷积滤波的软共享门控,用于在各层之间柔和地组合域特定的空间相关性。
- 从ImageNet训练中初始化,并在微调深度卷积滤波器的同时为新域添加域特定的输出头。
实验结果
研究问题
- RQ1一个神经网络是否能在捕获普遍跨域结构的同时,允许域特定的空间模式?
- RQ2在跨域间共享逐点(跨通道)滤波器是否比共享深度滤波器在参数效率和性能上更优?
- RQ3深度卷积滤波的软共享机制如何影响跨域性能?
- RQ4在多域设定下,深度卷积与逐点卷积学习的特征的可解释性如何?
- RQ5与最先进基线相比,所提出的方法在Visual Decathlon Challenge上的表现如何?
主要发现
| 模型 | ImNet | Airc. | C100 | DPed | DTD | GTSR | Flwr | OGlt | SVHN | UCF | mean | S | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Serial Res. Adapt. | 2x | 59.67 | 61.87 | 81.20 | 93.88 | 57.13 | 97.57 | 81.67 | 89.62 | 96.13 | 50.12 | 76.89 | 2621 |
| Parallel Res. Adapt. | 2x | 60.32 | 64.21 | 81.91 | 94.73 | 58.83 | 99.38 | 84.68 | 89.21 | 96.54 | 50.94 | 78.07 | 3412 |
| DAN | 2.17x | 57.74 | 64.12 | 80.07 | 91.30 | 56.64 | 98.46 | 86.05 | 89.67 | 96.77 | 49.38 | 77.01 | 2851 |
| Piggyback | 1.28x | 57.69 | 65.29 | 79.87 | 96.99 | 57.45 | 97.27 | 79.09 | 87.63 | 97.24 | 47.48 | 76.60 | 2838 |
| Individual Network | 5x | 63.99 | 65.71 | 78.26 | 88.29 | 52.19 | 98.76 | 83.17 | 90.04 | 96.84 | 48.35 | 76.56 | 2756 |
| Classifier Only | 0.6x | 63.99 | 51.04 | 75.32 | 94.49 | 54.21 | 98.48 | 84.47 | 86.66 | 95.14 | 43.75 | 74.76 | 2446 |
| Depthwise Sharing | 4x | 63.99 | 67.42 | 74.46 | 95.60 | 54.85 | 98.52 | 87.34 | 89.88 | 96.62 | 50.39 | 77.91 | 3234 |
| Proposed Approach | 1x | 63.99 | 61.06 | 81.20 | 97.00 | 55.48 | 99.27 | 85.67 | 89.12 | 96.16 | 49.33 | 77.82 | 3507 |
- 所提出的深度/可分离架构在测试方法中获得了最高的Visual Decathlon分数,同时仅使用基线参数量的大约一半。
- 在ResNet-26中用深度可分离卷积替代标准卷积,显著提升ImageNet性能(63.99 对 60.32)。
- 在跨域共享逐点滤波器(跨通道)可获得与共享深度卷积滤波器相当甚至更好的性能,同时带来总体增益和参数效率。
- 领域特定的深度卷积滤波器加上共享的逐点滤波器使对新领域的适应具有适度的参数开销(在扩展设置中大约每个新领域0.3M)。
- 对深度卷积滤波器的软共享在某些域上提供了边际增益,但总体上未超过基线方法;在共享前几层或后几层时观察到一些增益。
- 网络逐步剖析显示,深度卷积捕捉到的概念和属性多于逐点卷积,表明跨域共享在通道层级比在空间滤波层级更为有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。