[论文解读] Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation
引入具备位置敏感性的轴向注意力,构建独立的轴向注意力模型,在 COCO、Mapillary Vistas 与 Cityscapes 上取得最先进的全景分割结果,并显著提升相较于以往独立自注意力方法的效率。
Convolution exploits locality for efficiency at a cost of missing long range context. Self-attention has been adopted to augment CNNs with non-local interactions. Recent works prove it possible to stack self-attention layers to obtain a fully attentional network by restricting the attention to a local region. In this paper, we attempt to remove this constraint by factorizing 2D self-attention into two 1D self-attentions. This reduces computation complexity and allows performing attention within a larger or even global region. In companion, we also propose a position-sensitive self-attention design. Combining both yields our position-sensitive axial-attention layer, a novel building block that one could stack to form axial-attention models for image classification and dense prediction. We demonstrate the effectiveness of our model on four large-scale datasets. In particular, our model outperforms all existing stand-alone self-attention models on ImageNet. Our Axial-DeepLab improves 2.8% PQ over bottom-up state-of-the-art on COCO test-dev. This previous state-of-the-art is attained by our small variant that is 3.8x parameter-efficient and 27x computation-efficient. Axial-DeepLab also achieves state-of-the-art results on Mapillary Vistas and Cityscapes.
研究动机与目标
- 以高效建模远程上下文,避免传统卷积局部性约束为动机。
- 提出位置敏感的轴向注意力,使独立模型具备大尺度/全局感受野。
- 展示 Axial-ResNet 与 Axial-DeepLab 作为分类与全景分割的骨干网络。
- 在 COCO、Mapillary Vistas 与 Cityscapes 上实现最先进的性能,并提升效率。
提出的方法
- 将二维自注意力分解为在高度轴和宽度轴上的顺序一维注意力(axial-attention)。
- 引入具有查询、键、值依赖的位置项(r^q、r^k、r^v)的位置敏感自注意力。
- 用轴向注意力层替换 ResNet 块中的 3x3 卷积,形成 Axial-ResNet。
- 通过调整步幅并移除 ASPP,将 Axial-ResNet 转换为用于分割的 Axial-DeepLab。
- 在 ImageNet 上进行分类训练和评估,在 COCO、Mapillary Vistas、Cityscapes 上进行全景、实例与语义分割评估。
- 使用 span m 控制轴向注意力的范围;将 m 设置为输入尺寸即可获得全局感受野;对高度和宽度各应用两层连续的轴向注意力。
实验结果
研究问题
- RQ1独立的轴向注意力是否能在复杂度低于全二维自注意力的情况下实现全局感受野?
- RQ2位置敏感的轴向注意力是否比已有独立注意力方法提升分割性能?
- RQ3相比底层最新方法,Axial-ResNet 与 Axial-DeepLab 在全景、实例与语义分割基准上的表现如何?
- RQ4轴向注意力跨度与模型规模对不同数据集的准确性与效率有何影响?
- RQ5是否可在骨干网络中替换传统卷积且不使用 ASPP 就获得具有竞争力的分割结果?
主要发现
| 方法 | 骨干网络 | 多尺度 | 参数 | M-Adds | PQ | PQ 阈值 | PQ 状态 |
|---|---|---|---|---|---|---|---|
| DeeperLab | Xception-71 | — | — | 33.8 | — | — | |
| SSAP | ResNet-101 | ✓ | — | — | 36.5 | — | — |
| Panoptic-DeepLab (Xception-71) | Xception-71 | 46.7M | 274.0B | 39.7 | 43.9 | 33.2 | |
| Panoptic-DeepLab (Xception-71) | Xception-71 | ✓ | 46.7M | 3081.4B | 41.2 | 44.9 | 35.7 |
| Axial-DeepLab-S | Axial-ResNet-S | 12.1M | 110.4B | 41.8 | 46.1 | 35.2 | |
| Axial-DeepLab-M | Axial-ResNet-M | 25.9M | 209.9B | 42.9 | 47.6 | 35.8 | |
| Axial-DeepLab-L | Axial-ResNet-L | 44.9M | 343.9B | 43.4 | 48.5 | 35.6 | |
| Axial-DeepLab-L | Axial-ResNet-L | ✓ | 44.9M | 3867.7B | 43.9 | 48.6 | 36.8 |
- Axial-DeepLab-L 在 COCO test-dev 上达到 43.9 PQ,超越 Panoptic-DeepLab 2.7 PQ。
- 单尺度的 Axial-DeepLab-S 在 COCO val 的性能领先 DeeperLab 8.0 PQ,并分别在多尺度 SSAP 与单尺度 Panoptic-DeepLab 上领先 5.3 和 2.1 PQ。
- Axial-DeepLab-L 通过 MS 在 COCO test-dev 上达到 44.2 PQ,成为底向下方法中的最先进并缩小与顶向上方法的差距。
- 在 Mapillary Vistas 验证集上,Axial-DeepLab-L 在单尺度和多尺度设置下均优于最新方法;经 MV 预训练,Axial-DeepLab-XL 达到 68.5 PQ 和 44.2 AP。
- Cityscapes 验证显示 Axial-DeepLab 的变体优于 ResNet-50 基线,较大的模型和 MS 进一步提升 PQ 与 mIoU。
- 在各项实验中,带有位置敏感性的轴向注意力相较于先前的独立注意力方法,在 PQ、AP 与 mIoU 上均表现出稳定的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。