[论文解读] Dual Attention Network for Scene Segmentation
DANet 在 dilated FCN 之上引入空间(位置)和通道注意力模块,以捕捉全局依赖,取得 Cityscapes、PASCAL Context、COCO Stuff 和 PASCAL VOC 2012 数据集上的最新结果。
In this paper, we address the scene segmentation task by capturing rich contextual dependencies based on the selfattention mechanism. Unlike previous works that capture contexts by multi-scale features fusion, we propose a Dual Attention Networks (DANet) to adaptively integrate local features with their global dependencies. Specifically, we append two types of attention modules on top of traditional dilated FCN, which model the semantic interdependencies in spatial and channel dimensions respectively. The position attention module selectively aggregates the features at each position by a weighted sum of the features at all positions. Similar features would be related to each other regardless of their distances. Meanwhile, the channel attention module selectively emphasizes interdependent channel maps by integrating associated features among all channel maps. We sum the outputs of the two attention modules to further improve feature representation which contributes to more precise segmentation results. We achieve new state-of-the-art segmentation performance on three challenging scene segmentation datasets, i.e., Cityscapes, PASCAL Context and COCO Stuff dataset. In particular, a Mean IoU score of 81.5% on Cityscapes test set is achieved without using coarse data. We make the code and trained model publicly available at https://github.com/junfu1115/DANet
研究动机与目标
- 通过建模超出多尺度特征融合的长程上下文依赖,推动更好的场景分割。
- 提出两个互补的自注意力模块(位置和通道)以捕获空间和跨通道关系。
- 证明将注意力模块输出融合能增强像素级预测的特征表示。
提出的方法
- 在 dilated FCN 骨干之上添加两个并行的自注意力模块。
- 位置注意力模块:计算一个空间注意力图 S 并产生 E = alpha * D * S^T + A,其中 alpha 从 0 开始学习。
- 通道注意力模块:从 A 计算一个通道注意力图 X 并产生 E = beta * X * A^T + A,其中 beta 从 0 开始学习。
- 通过一个卷积嵌入和逐元素求和来融合这两个带注意力的特征,随后进行最终卷积以产生预测图。
实验结果
研究问题
- RQ1通过对空间关系的自注意力建模(位置注意力)是否能通过捕获长程依赖来改善像素级分割?
- RQ2建模特征通道之间的相互依赖(通道注意力)是否能提高语义类别的辨别度?
- RQ3结合空间与通道注意力是否比单独任一模块获得更好性能?
主要发现
| 方法 | 基础网络 | PAM | CAM | 平均 IoU% |
|---|---|---|---|---|
| Dilated FCN | Res50 | 70.03 | ||
| DANet | Res50 | ✓ | 75.74 | |
| DANet | Res50 | ✓ | 74.28 | |
| DANet | Res50 | ✓ | ✓ | 76.34 |
| DANet | Res101 | ✓ | ✓ | 77.57 |
- 仅使用位置注意力就能将 Mean IoU 提升至 75.74%(ResNet-50 基线)。
- 仅使用通道注意力就使 Mean IoU 相较基线提升 4.25%。
- 结合 PAM 和 CAM 可达到 76.34% 的 Mean IoU(ResNet-50)。
- 以 ResNet-101 为骨干并同时使用两个模块,在 Cityscapes 验证集上达到 77.57% Mean IoU。
- 通过数据增强、多网格、以及多尺度推理,DANet-101 在 Cityscapes 验证集达到 81.50% Mean IoU,在表格中超越了 Deeplabv3 等。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。